最大后验概率

后验概率

在贝叶斯统计中，一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。

在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率. 先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础.

实例

假设一个学校裡有60％男生和40%女生。女生穿裤子的人数和穿裙子的人数相等，所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少？

使用贝叶斯定理，事件A是看到女生，事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B)。

P(A)是忽略其它因素，看到女生的概率，在这里是40%

P(A')是忽略其它因素，看到不是女生（即看到男生）的概率，在这里是60% P(B|A)是女生穿裤子的概率，在这里是50%

P(B|A')是男生穿裤子的概率，在这里是100%

P(B)是忽略其它因素，学生穿裤子的概率，P(B) = P(B|A)P(A) + P(B|A')P(A')，在这里是0.5×0.4 + 1×0.6 = 0.8.

根据贝叶斯定理，我们计算出后验概率

P(A|B)

先验概率

先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现.

先验概率的分类

利用过去历史资料计算得到的先验概率，称为客观先验概率；

当历史资料无从取得或资料不完全时，凭人们的主观经验来判断而得到的先验概率，称为主观先验概率。

先验概率的条件

先验概率是通过古典概率模型加以定义的，故又称为古典概率。古典概率模型要求满足两个条件：(1)试验的所有可能结果是有限的;(2)每一种可能结果出现的可能性(概率)相等。若所有可能结果的总数为n，随机事件A包括m个可能结果。

编辑本段先验概率与后验概率的区别

先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料(主要是历史资料)计算的；后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料；

先验概率的计算比较简单，没有使用贝叶斯公式；而后验概率的计算，要使用贝叶斯公式，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。

先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为”由因求果”问题中的”因”出现.

例子: 你来到一个山洞,这个山洞里可能有熊也可能没有熊, 记你觉得山洞有熊的为事件Y. 然后,你也许听到山洞里传来熊的吼声, 记听到熊吼声为事件X. 你一开始认为山洞有熊的概率是P(Y); 听到熊的吼声之后,你认为有熊的概率是P(Y|X).

很明显,在这个例子里面P(Y|X)>P(Y), P(Y)就是先验概率,P(Y|X)是后验概率.

1.贝叶斯法则

机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。

最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

2.先验概率和后验概率

用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识，可以简单地将每一候选假设赋予相同的先验概率。类似地，P(D)表示训练数据D的先验概率，P(D|h)表示假设h成立时D的概率。机器学习中，我们关心的是P(h|D)，即给定D时h的成立的概率，称为h的后验概率。

假定一种理想化状态，即视曲率不良是可能导致交通事故的驾驶员视觉因素中的唯一因素。

D：交通事故发生

h：视曲率值在安全阈值外

P(D)=0.01 P(h|D)=0.9 P(h)=0.05

P(D|h)=p(h|D)*P(D)/P(h)=0.9*0.01/0.05=0.18

3.贝叶斯公式

贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法

p(h|D)=P(D|H)*P(H)/P(D)

P(h|D)随着P(h)和P(D|h)的增长而增长，随着P(D)的增长而减少，即如果D独立于h时被观察到的可能性越大，那么D对h的支持度越小。

4.极大后验假设

学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h，h被称为极大后验假设（MAP）确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率，计算式如下:

h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H)

最后一步，去掉了P(D)，因为它是不依赖于h的常量。

5.极大似然假设

在某些情况下，可假定H中每个假设有相同的先验概率，这样式子可以进一步简化，只需考虑P(D|h)来寻找极大可能假设。

h_ml = argmax p(D|h) h属于集合H

P(D|h)常被称为给定h时数据D的似然度，而使P(D|h)最大的假设被称为极大似然假设。

6.举例

考虑一个医疗诊断问题，有两种可能的假设：（1）病人有癌症。（2）病人无癌症。样本数据来自某化验测试，它也有两种可能的结果：阳性和阴性。假设我们已经有先验知识：在所有人口中只有0.008的人患病。此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。

上面的数据可以用以下概率式子表示：

P(cancer)=0.008,P(无cancer)=0.992

P(阳性|cancer)=0.98,P(阴性|cancer)=0.02

P(阳性|无cancer)=0.03，P(阴性|无cancer)=0.97

假设现在有一个新病人，化验测试返回阳性，是否将病人断定为有癌症呢？我们可以来计算极大后验假设：

P(阳性|cancer)p(cancer)=0.98*0.008 = 0.0078

P(阳性|无cancer)*p(无cancer)=0.03*0.992 = 0.0298

因此，应该判断为无癌症。

确切的后验概率可将上面的结果归一化以使它们的和为1：

P(canner|+)=0.0078/(0.0078+0.0298)=0.21

P(cancer|-)=0.79

贝叶斯推理的结果很大程度上依赖于先验概率，另外不是完全接受或拒绝假设，只是在观察到较多的数据后增大或减小了假设的可能性。

贝叶斯分类具有如下特点：

(1)贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类；

(2)一般情况下在贝叶斯分类中所有的属性都潜在地起作用，即并不是一个或几个属性决定分类，而是所有的属性都参与分类；

(3) 贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。

贝叶斯定理给出了最小化误差的最优解决方法，可用于分类和预测。理论上，它看起来很完美，但在实际中，它并不能直接利用，它需要知道证据的确切分布概率，而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。