MIT 6.041 Probabilistic Systems Analysis and Applied Probability - 2.Conditioning and Bayes' Rule

03 Jun 2020 - 1 minute read

2.Conditioning and Bayes’ Rule 条件概率和贝叶斯定理

2.Conditioning and Bayes’ Rule 条件概率和贝叶斯定理

Review of last class

可加性(Additivity)公理能否运用于不可数无限 uncountable infinite个集合呢？

我们来看这个例子：

一个单位正方形的样本空间 $\Omega = \{(x,y)|0\leq x,y\leq 1,\ x,y\in \mathbb{R}\}$

我们知道$\Omega$是由所有满足条件的点并起来的，即

\[\Omega = \bigcup_{0\leq x,y\leq 1} \{(x,y)\}\]

那么，$\Omega$的概率似乎满足

\[1 = P(\Omega) = P(\bigcup_{0\leq x,y\leq 1} \{(x,y)\}) = \sum P(\{(x,y)\}) = \sum 0 = 0\]

因为一个点的概率是0

于是我们证明了1=0，哦，多么美丽的结果阿！

这样的证明肯定是有问题的，问题就出在对于不可数无限个 uncountable infinite集合的交（不可数交）运用了可加性(Additivity)公理

事实上可加性公理只能运用于有限个集合的交，或是有限序列（即可数 countable）个集合的交，这是需要注意的

同时这个例子也可以说明，对于连续的样本空间，概率为0不代表不可能发生；同样的，概率为1不代表一定发生（思考飞镖不落在(0,0)这点的概率）

Conditional Probability 条件概率

条件概率指的是一个事件在另一个事件已经发生的条件下的概率

$P(A|B)$ 代表事件B发生时，事件A的概率

假设$P(B) \neq 0$,

\[P(A\|B) = \frac{P(A\cap B)}{P(B)}\]

如果$P(B) = 0$，$P(A|B)$是未定义的

这很好理解，假设A的概率是5/6，B的概率是1/2，则$A\cap B$的概率是1/3

如果B已经发生了，那么A仍然发生的部分就是$A\cap B$,而这部分的概率在整个事件B中的概率就是

\[\frac{P(A\cap B)}{P(B)} = \frac{1/3}{1/2} = 2/3\]

同样，我们也可以这样理解公式：

\[P(A\cap B) = P(B)P(A\|B)\]

AB同时发生的概率即为B发生的概率乘一个A在B中的占比，$P(A|B)$就是比例因子

条件概率和普通的概率没什么大的区别，描述的无非就是一个事件发生的新的状态下的普通概率

从这个角度出发，以下公式就是显然的:

若$A\cap B = \varnothing$,

\[P(A\cup B \|C) = P(A\|C)+P(B\|C)\]

C事件发生后，AB之间的关系该怎么来就怎么来

当然，通过条件概率的定义也可以轻易证明，这里略

条件概率反映的是某一事件（假设是B）发生时另一件事（假设是A）发生的概率，若忽略了事件B发生的概率，单从条件概率来看A单独发生的概率，是容易产生错觉的。举一个例子，若B发生的概率是1%，$A\cap B$发生的概率是0.99%，那么在事件B的条件下A的概率就是99%，看似很高，但是事实上从整体来看，和A发生的概率没有太多联系。A的概率可以很高，也可以很低。这里需要注意。

Multiplication rule 乘法法则

\[P(A\cap B\cap C)=P(A)P(B\|A)P(C\|A\cap B)\]

更一般的版本,对于至多是可数个的集合

\[P(A_1\cap\cdots\cap A_n) = P(A_1)P(A_2\|A_1)P(A_3\|A_1\cap A_2)\cdots=\prod_{k=1}^n P(A_k\|\bigcap_{j=1}^{k-1}A_j)\]

这个式子也不难理解：前k项是$A_1-A_k$事件同时发生的概率，乘上的第k+1项即在$A_1-A_k$同时发生的条件下$A_{k+1}$的条件概率

决策树也能够帮助理解：

Total probability theorem 全概率定理

若$A_1,\cdots,A_n$两两互斥，即$A_i \cap A_j = \varnothing,\ i\neq j,\ i,j = 1,2,\cdots,n$

且$A_1\cap\cdots\cap A_n = \Omega$

则称$A_1,\cdots,A_n$为$\Omega$的一个划分 Partition

若$A_1,\cdots,A_n$（此处n可以无穷大，即可数无穷的序列）为样本空间$\Omega$的一个划分,则

\[P(B) = P(A_1)P(B\|A_1)+\cdots+P(A_n)P(B\|A_n) = \sum_{i=1}^n P(A_i)P(B\|A_i)\]

通过图我们可以清晰地认识到，B发生的概率就等于n块$A_n\cap B$发生的概率之和，而$A_n\cap B$就是在An的条件下B发生的概率，即条件概率，乘以An发生的概率。从另一个角度思考，$P(B|A_n)$代表着B在An中的占比，为了得出总的B，我们只需要把所有B在An中占有的部分求和即可。

这个公式也可以理解为B发生的概率是所有可能场景(An)下B事件发生的权重平均

Bayes’s Rule 贝叶斯定理

我们知道条件概率满足的关系：

\[P(A_i\|B) = \frac{P(A_i\cap B)}{P(B)}\]

同时我们也知道B发生的概率为所有B在An中占有的部分之和

\[P(B) = \sum_{j=1}^n P(A_j)P(B\|A_j)\]

注意到$P(A_i\cap B) = P(B)P(A_i|B) = P(A_i)P(B|A_i)$

联立三个公式，可得:

\[P(A_i\|B) = \frac{P(A_i\cap B)}{P(B)} \\= \frac{P(A_i)P(B\|A_i)}{P(B)}\\=\frac{P(A_i)P(B\|A_i)}{\sum_{j=1}^n P(A_j)P(B\|A_j)}\]

即贝叶斯公式 Bayes’s Rule

该公式的意义在于，通过结果的概率，寻找原因的概率

$A_i$导致了B，我们知道了所有情境下B发生的概率

于是通过贝叶斯公式，我们就可以得知在B发生的情境下，”原因事件”$A_i$发生的概率

TaKeTube

Abstractness is the price of Generality.