白话贝叶斯理论及在足球比赛结果预测中的应用和C#实现数据之巅

设P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。下面就是贝叶斯公式:

其中的符号定义为:

按这些术语,贝叶斯定理可表述为:后验概率=(相似度*先验概率)/标准化常量。简单的讲,贝叶斯定理是基于假设的先验概率,给定假设条件下,观察到不同数据的概率,提供一种计算后验概率的方法。

1、已知类条件概率密度参数表达式和先验概率。

2、利用贝叶斯公式转换成后验概率。

3、根据后验概率大小进行决策分类。

贝叶斯的这种基本思想可以在大量的实际案例中得到使用,因为很多现实社会中,积累了很多历史先验数据,想进行一些决策推理,也可以说是预测,就可以按照上面的步骤进行,当然贝叶斯理论的发展中,出现了很多新的推理算法,更加复杂,和面向不同的领域。一般来说,使用贝叶斯推理就是,预测某个事件下一次出现的概率,或者属于某些类别的概率,使用贝叶斯来进行分类的应用应该是最广泛的,很多实际的推理问题也可以转换为分类问题。下面将介绍一些贝叶斯理论的应用例子。

在人工智能领域,贝叶斯方法是一种非常有代表性的不确定性知识表示和推理方法。目前贝叶斯的应用非常广泛,如文本分类,问题分类,反垃圾邮件等等,根据问题特征因素的独立性可以分为:朴素贝叶斯和贝叶斯网络。

1.朴素贝叶斯的核心在于它假设向量的所有分量之间是独立的。(这一点在很多复杂的实际情况中都不太容易达到,各个因素直接可能都有一定的关联);

2.贝叶斯网络又叫概率因果网络或者知识图,是相对于朴素贝叶斯而言的。它是一种有方向的无环关系图;贝叶斯网络用图形来表示变量之间的连接个概率关系;它是为了解决不确定性问题和不完整性问题而提出的,在如文字处理,图像处理,决策支持等很多领域都得到广泛的应用。

注意:上述的推导有2个地方比较难懂,1个是把分母p(x)去掉了,应该好理解,分母都一样,比较的时候,直接比较分子就可以了。另外一个是为什么这个公式是成立的:

P(x|yi)=P(a1|yi)*P(a2|yi)*...*P(aj|yi)

这个公式的成立是因为各个属性a1,a2,..,aj都是独立的,才能成立。

根据上述原理,朴素贝叶斯分类主要分为三个阶段:1.准备阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。2.分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算。3.应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

至于贝叶斯的其他问题如估计类别下特殊属性划分的条件概率,以及分类器的评价问题,我认为对于初学者可以暂时跳过,等把基本流程理顺了,懂了,越到更多的问题后再回过头来反思后,按需学习。

对于SNS社区来说,不真实账号(使用虚假身份或用户的小号)是一个普遍存在的问题,作为SNS社区的运营商,希望可以检测出这些不真实账号,从而在一些运营分析报告中避免这些账号的干扰,亦可以加强对SNS社区的了解与监管。如果通过纯人工检测,需要耗费大量的人力,效率也十分低下,如能引入自动检测机制,必将大大提升工作效率。这个问题说白了,就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类。

下面我们一步一步的使用朴素贝叶斯实现这个过程。

1.首先设C=0表示真实账号,C=1表示不真实账号。其他例子中不一定只有2类,也可以是N个类别,只不过计算更复杂,要借助计算机和程序了。

2.找出可以区分真实与不真实账号的特征属性,实际应用中,特征属性的数量可能很多,划分也会更细致。作为例子,这里只用少量的特征属性以及较粗的划分,并对数据做了修改。同时我们也假设这3个属性是独立的,这是使用朴素贝叶斯的基本要求。

选择三个特征属性,在SNS社区中这三项是可以直接从数据库里得到的。粗略划分如下几个区间:

a1:日志数量/注册天数,划分:{a1<=0.05,0.05=0.2}

a2:好友数量/注册天数,划分:{a2<=0.1,0.1=0.8}

a3:是否使用真实头像。划分:{a3=0(不是),a3=1(是)}

使用1万个人工检测过的账号作为训练样本。我们根据上面特征属性的划分计算每个类别的频率以及各个类别在各个条件下的条件概率,以供后面的预测需要。

计算类别频率

P(C=0)=0.89;也就说这1万个人工检测过的帐号中,有89%是真实的

P(C=1)=0.11;人工检测的帐号中,有11%是不真实的

计算条件概率

1)计算已知C=0的条件下,a1属性属于不同划分类别的条件概率

P(a1<=0.05|C=0)=0.3;在帐号真实的情况下,日志数量/注册天数的值<=0.05的比例有30%

p(0.05

P(a1>=0.2|C=0)=0.2;

2)计算已知C=1的条件下,a1属性属于不同划分类别的条件概率

P(a1<=0.05|C=1)=0.8;在帐号不真实的情况下,日志数量/注册天数的值<=0.05的比例有80%

p(0.05

P(a1>=0.2|C=1)=0.1;

3)计算已知C=0的条件下,a2属性属于不同划分类别的条件概率

P(a2<=0.1|C=0)=0.1;

P(0.1

P(a2>=0.8|C=0)=0.2;

4)计算已知C=1的条件下,a2属性属于不同划分类别的条件概率

P(a2<=0.1|C=1)=0.7;不真实条件下的帐号,好友数量在这个范围是非常多的

P(0.1

P(a2>=0.8|C=1)=0.1;

5)计算已知C=0的条件下,a3属性属于不同划分类别的条件概率

P(a3=0|C=0)=0.2;

P(a3=1|C=0)=0.8;真实帐号中,使用真实图像的比例是80%

6)计算已知C=1的条件下,a3属性属于不同划分类别的条件概率

P(a3=0|C=1)=0.9;不真实帐号中,使用不真实图像的比例是90%

P(a3=1|C=1)=0.1;

上面这些数据从样本中可以直接统计得到。我也手动对几个条件概率进行了解释,我们假设还是比较符合真实情况的,虽然这个数据是原作者修正过的。

某帐号使用非真实头像,日志数量与注册天数的比率为0.1,好友数与注册天数的比率为0.2。这些数据是从该数据库直接获取的。

那么这个人的账户是真实账户还是不真实账户呢?相应的概率又有多少呢?

直接使用3.1节中的公式,我们计算在当前数据x发生的情况下,属于不同类别的概率,这里有2类,所以要计算一下2个东西:

要计算P(C=0|x)和P(C=1|x)的概率,然后比较大小,取最大值所在的类别就是我们分类的类别。当然我们不一定非要分类,而是可以将求出的概率提供给客户,作为一个参考值等等。而根据3.1节的推导,上述2个值的计算完整公式应该是下面这样的:

P(C=0|x)=P(x|C=0)*P(C=0)

=P(a1|C=0)*P(a2|C=0)*P(a3|C=0)*P(C=0)根据x的属性范围选择对应的概率

=P(0.05

=0.5*0.7*0.2*0.89=0.0623

同理:

P(C=1|x)=P(0.05

=0.1*0.2*0.9*0.11=0.00198

所以根据属性结果和计算,当事件X发生时,属于C=0的概率要高得多,是C=1的30倍。因此我们有理由将这个帐号划分为真实帐号的范畴。

当然实际中的情况可能更加复杂,计算量也更加大,朴素贝叶斯不一定能很好的完成复杂的任务。但有些时候,我们将文件简化为朴素贝叶斯也能收获一些意外的东西。下面我们就来看将贝叶斯分类应用到足球彩票胜平负结果的预测中的情况。纯C#代码。欢迎支持。

关于足球彩票预测的几点说明:

1.本文分析的足球胜平负比赛的结果预测,采集的数据有近10年的全世界主要联赛;

2.足球彩票的预测方法各种各样,八仙过海各显神通,我这里也只是初步的测试,还有很多工作待完成,有没有完善的地方大家也不要急。

3.足球比赛的结果不仅与球队实力,状态,伤病,彩票,天气,还与场上的重大随机因素有关,因此想完成预测100%准确是一个不可能的任务,我们只是想在欧赔的概率基础上有少部分(5-10%)的提高,这样才可以做很多有意义的事情。

4.准确的说,足球比赛的很多因素都是有关联的,我也只是处于好奇,先使用了朴素贝叶斯来进行了一些工作,同时也在着手开始研究贝叶斯网络的预测方法,比较复杂,还在学习与堆码中。

5.1场足球比赛的基本要点有:主队,客队,比分,结果,至于辅助的因素有很多,如赛前的主客队积分,进球率,失球率,净胜球等等。

为了简单起见,我暂时只选取2个属性:主客队总积分的差;主队主场积分与客队客场积分的差;结果有胜平负3种类别,分别记为(3,1,0)。属性集的划分我们在程序中动态获取,这样可以计算各种不同划分的准确率,更加方便,这和上面的例子是不一样的。当然上面的例子也可以这样做,只是一个小的技巧而已。

在这个测试过程中,我们是选取前N轮的比赛场次数据,然后对后M轮的结果进行预测。所有首先要从数据库获取贝叶斯的训练数据,看代码:

1///

获取属性分割的区间,根据断点确定,data应该是从小到大的点排列2///3staticdouble[][]GetRulesByPoint(Listdata)4{5double[][]res=newdouble[data.Count+1][];6res[0]=newdouble[]{-1000,data[0]};//下限-1000,不可能达到7for(inti=0;i

1.几个基本的属性。注意字典存储条件概率,直接全部计算,对数据量大的情况,可能会吃不消,应该按需计算比较好。不过这里是测试,无所谓了。先看看效果才行。

预测的过程也和第2节的例子一样,只不过是程序化了。预测的方法是每次一条记录的数据,并计算属于每一类的概率,所以返回的是一个字典,key为类别,value为概率。具体方法如下所示:

1///

分类:key为类别,value为概率2publicDictionaryClassificationForDic(double[]data)3{4//先要计算每个当前属性的划分集合的顺序,找出每个属性所属于的区间5ListattIdList=newList();6for(inti=0;ires=C_Ratio.ToDictionary(n=>n.Key,n=>15{16doublemultip=n.Value;17for(inti=0;i

基本过程和代码完成了,我们采集5大联赛(西甲,德甲,英超,意甲,法甲)的数据进行测试,看看贝叶斯预测算法的准确性如何。测试的核心代码如下:

我们可以看到,针对不同的划分集,指数1的准确率都超过了57%,比正常的欧赔指数45-50%,高出了5-10%。结果还是比较可观的。但是我们也看到指数3的比例都有22%,说明对于一些特别冷门的场次,算法还是做不到,这些特殊情况不是简单2个因素就可以左右的,因此还有待对模型更深一步的研究,找出这些特别冷门场次的一些共同因素,从而进行一定程度的防范,减少指数3的比例,从而提高指数1,2的比例。

2.同时,我们对上一步的测试方法进行了一定的更改,将预测结果和欧赔bet365指数1结果一致的比赛拿出来进行统计;将预测结果和欧赔bet365指数1,2结果一致的比赛进行统计:

同样是上述481场比赛进行筛选和属性划分,我们对实际的准确率进行比较:

通过结合欧赔指数,进行一定的过滤后,预测的整理准确率有了一定的提高。这个结果还是很理想的,懂的人应该知道里面的含义。所以贝叶斯理论的确是非常强大,当然这里只采用了2个因素,而且本身是关联的,但实际中没有考虑关联性,看成了朴素贝叶斯,必定会对问题结果产生一定的影响。这和我解决问题的思路有关系,先简单,后复杂,逐步过渡,延伸。。

1.在博客正文加上本文的链接,当然部分网站会无良的把所有链接给去掉,但可以防范部分,另外水印这些也有点用,只是比较麻烦,懒得搞

THE END
1.大乐透计算器查询期数: 2024 年 24137 期 2024/11/25 开奖号码: 08 15 16 17 21 02 05 投注类型: 普通投注 胆拖投注 我的投注: 前区 5个 后区 2个 追加投注 投注金额计算: 共计1 注, 2 元 我的命中: 前区 0个 后区 0个 奖金计算奖级中奖条件中奖注数单注奖金中奖奖金 一等奖 5+2 0注 10,https://www.bjlot.com/bjtcphone/dlt/index.html
2.双色球中奖公式表,让你轻松掌握中奖秘诀和技巧!上市新游通过官方网站或相关手机应用,用户只需输入自己的双色球彩票号码,即可实时查询与最新开奖号码的对比,轻松获知是否中奖。系统还提供历史开奖数据、奖金分配及中奖公告,让彩民及时掌握最新动态。无论是手机用户还是电脑用户,都能享受到快速、准确的查询体验,让购彩变得更加简单和有趣。http://m.hljmx.net/news/3437.shtml
3.算号方法归纳总结杀尾公式 本人也在用 小玉婷 5502024-12-04 12:13 福彩3D技巧-3d十位出7下期杀号多少 数学理科生 2882024-12-04 12:05 明白人都懂 简单容易懂 小玉婷 7022024-12-04 10:42 福利彩票3d胆码技巧大全 数学理科生 4132024-12-04 10:22 万能四码运用 小玉婷 5422024-12-04 10:09 福彩3D投注https://m.17500.cn/arts-m/sdetail-11187318.html
4.用于彩票预测的数学公式需要注意的是,以上公式只是一些常用的数学工具,具体如何使用需要根据具体情况进行调整和优化。同时,彩票预测不能完全依赖数学公式,还需要结合彩票历史数据和其他因素进行综合分析和判断。快乐8号码的方差计算实例:方差是用来评估一组数据的离散程度,计算公式为:Var(X) = E[(X - E[X])^2]其中,X表示数据集,https://baijiahao.baidu.com/s?id=1765110717772714636&wfr=spider&for=pc
5.双色球选号技巧之公式计算找红球双色球选号技巧之公式计算找红球 选双色球红球号码是一件非常困惑的事情,小编在此向大家推荐一种行之有效的计算红球的办法。根据双色球上期开奖号码,通过加减乘除来计算下期的开奖号码是其原理,具体操作步骤如下: 第一步,将上期双色球红球六个开奖号码列出来,例如要挑选2007133期奖号,将上期,即第2007132期开奖https://m.800820.net/p/7814706.html
6.彩票双色计算公式.docx该【彩票双色计算公式 】是由【艾米】上传分享,文档一共【27】页,该文档可以免费在线阅读,需要了解更多关于【彩票双色计算公式 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。彩票双色计算公式 https://www.taodocs.com/p-818562768.html
7.双色球的计算公式是什么啊?双色球蓝球计算公式 本期前二期和前四期兰号相加相减所得数可以一用。例本期是68期,即66期和64期的兰号相加相减所得。 请问双色球的公式怎么算· 转自41彩票网,论坛上更详细,你自己参考 一、间隔状态选号。从号码弹出的间隔状态中,可以得到号码的冷热情况或冷热趋势。最 猜你关注广告 1营养师报名 2新时https://wenda.so.com/q/1676758107215665
8.大乐透选号计算方法关注3个公式专题:彩票技巧 大乐透选号计算方法 关注3个公式 对于大乐透如何选号,可根据以下三个公式进行计算: 公式1、计算平均值 将大乐透前区号码相加,和值除以6,所得数值按四舍五入进行选取,得出的数值为大乐透均 值。 一般2个号码相加的平均和值是36,与它相邻左右两边的和值分别是35、37。这3个平均和值 https://www.ydniu.com/info/dlt/cpjq/624907.html
9.六和肉鸭合同计算公式最新版“2014六合104期葡京”?1、【六和肉鸭合同计算公式】?2、【点击直接进入】?3、?【注册领取奖励】? 3.“6合彩098qi”?1、【六和肉鸭合同计算公式】?2、【点击直接进入】?3、?【注册领取奖励】? 4.“六合什么网站最准确”?1、【六和肉鸭合同计算公式】?2、【点击直接进入】http://www.hkwb.net/zxapp_91853.html
10.双色球最准确的计算公式双色球双色球最准确的计算公式,今天小编给大家介绍一下彩票双色球的更多玩法及专家资讯推荐方案,如果你也对双色球感兴趣的可以跟着小编一起来了解个所以然。https://www.vipc.cn/tags/shuangseqiuuizhunquedejisuangongshi
11.Welcome永盈彩票平台安卓通用版公式和条件格式 飞书表格支持公式和条件格式,帮助用户更清晰地呈现表格内容。用户可以通过设置公式,自动计算表格中的数据,避免繁琐的手工计算。用户还可以通过条件格式,将特定的数据以不同的颜色或样式进行标注,使得重要信息更加突出。这些功能可以帮助用户更好地理解表格内容,确保内容完整显示。 https://app.house086.com/mag/circle/v1/forum/threadWapPage?tid=150776
12.广东省福利彩票发行中心上述介绍的方法需要灵活交叉运用。 注:如果计算结果大于36,就用计算出来的大数减去12,得出来的数在生肖表里找到相应的生肖,就是下期要杀的生肖。如:43-12=31,31为肖马,所以下期杀肖马号码(07、19、31)。(梁学勤)http://www.gdfc.org.cn/datas/content/content_14979.html
13.偶然所得税怎么算计算公式:偶然所得税应该交纳的税额=应纳税所得额×适用税率=每次符合纳税条件的偶然所得数额×20% 另外,对于偶然所得税的征收,其实也是有一定范围的,并不是所有的偶然所得都是会被征税。此时存在一种较为特殊的情况,按照相关规定来看,一般个人购买各种福利彩票的时候,如果此时的中奖金额实际并没有超过一万元或者刚https://mip.64365.com/zs/960196.aspx
14.版本诚信安装雪谷逃生第5集正在播放快乐赛车彩票怎么玩法 老虎至阳 渔人码头游泳 章鱼tv倒闭了 腾辉国际app是干什么的 49629c.ccm 澳门彩库宝典免费下载 大乐透奖金计算公式准确大全 apple提醒短信 双色球84期预测最准确 体彩竞彩的玩法介绍 33346384 刘伟cuba简历 谁有291棋牌 8591交易网官网 升级拖拉机怎么玩的 479236 双色http://www.skdjhfd.com/lbiajrc.html
15.最准的彩票计算公式万能公式(2024最新下载)“今日资阳”由资阳日报社、资阳广播电视台引进国内先进软件厂商开发,以新闻+政最准的彩票计算公式 万能公式务+服务为特色,采用可视化、数据化等现代手段,传递及时全面的本地资讯,搭建便捷高效的互动渠道,最准的彩票计算公式 万能公式提供丰富多彩的生活服务,使您一手掌握移动互联新生活。 https://www.gfan.com/gftcpYTL6642/YTL6642.html