MIT 6.041 Probabilistic Systems Analysis and Applied Probability - 6.Discrete Random Variables II

09 Jun 2020 - 1 minute read

6.Discrete Random Variables II 离散随机变量（二）

6.Discrete Random Variables II 离散随机变量（二）

Standard deviation 标准差

若想要以相同单位衡量数据的偏移量，可以将方差开根，得到随机变量X分布的标准差 standard deviation

\[\sigma_X = \sqrt{var(X)}\]

方差的单位是随机变量单位的平方（recall $var(X) = E[(X-E[X])^2]$）

Conditional PMF & Expectation 条件概率质量函数&期望

我们知道条件概率无非就是在一个条件出现后的“新的宇宙”中审视事件的概率，所以其与普通的概率没有什么区别。因此，我们也可以在一个事件发生的条件下定义一个随机变量的概率质量函数，我们称这样的概率质量函数为 条件概率质量函数 Conditional PMF

在事件A的条件下，随机变量X的概率质量函数为

\[p_{X\|A}(x) = P(X=x\|A)\]

准确地写为如下形式

\[p_{X\|A}(x) = P(\{\omega\|\omega\in \Omega,\ X(\omega) = x\}\|A)\]

表示的是在事件A发生的条件下，当随机变量等于一个值时的概率

当然，根据条件概率的性质

\[\sum_x p_{X\|A}(x) = 1\]

同样的，我们也可以定义条件期望 Conditional Expectation

在事件A的条件下，随机变量X的期望为

\[E[X\|A] = \sum_X xp_{X\|A}(x)\]

因为“条件”无非是在一个“新宇宙”中审视概率，所以对于条件质量函数，条件期望（或者是条件方差），该有的性质都成立，只不过都要加上“条件”。比如，随机变量函数的条件期望公式，

\[E[g(X)\|A] = \sum_X g(x)p_{X\|A}(x)\]

线性函数的条件期望等于条件期望的线性函数，

\[E[(\alpha X+\beta)\|A] = \alpha E[X\|A]+\beta\]

等等。

Geometry PMF 几何概率质量函数

上节课我们已经提到几何PMF是如下的PMF

\[p_X(k) = (1-p)^{k-1}p\quad\quad k=1,2,...\]

其期望为

\[E[X] = \sum_{k=1}^\infty kp_X(k) = \sum_{k=1}^\infty k(1-p)^{k-1}p\]

这个式子，通过代数的方法不难计算，是几何级数的导数

\[E[X] = p\cdot\frac{d}{dp}(-\sum_{k=1}^\infty (1-p)^k)= p\cdot \frac{d}{dp}(-\frac{1}{1-(1-p)}) =p\cdot\frac{1}{p^2} =\frac{1}{p}\]

然而，我们也可以用概率论的方法去计算X的期望

现在看这么一个例子：

有两个人A，B抛硬币，记X为A抛硬币抛到正面所需的最小次数，Y为B抛硬币抛到正面所需的最小次数。单次投掷硬币抛到正面的概率为p。其中B比较急，先于A抛了两次硬币，可惜都是背面，之后B和A都按照同样的规则抛硬币。

X的PMF自然是$p_X(k) = (1-p)^{k-1}p$

而对于B来说，有的人可能会认为，他抛到次数多了，自然抛到正面的概率大一点。但是事实上，因为每次抛硬币都是互相独立的，所以B在前两次硬币都是反面的情况下和A抛硬币的条件是一模一样的。

Y的PMF是一个条件PMF $p_{Y|Y>2}(k)$

而且我们知道在前两次之后，A和B抛硬币的条件是一模一样的，即Y只要减去前两次，概率的情况就和X一模一样，即

\[p_{Y-2\|Y>2}(k) = p_X(k)\]

这里Y和X是等价的，并且我们知道在前n次都为反面的条件下，n此过后，A和B的情况就是一样的

所以,对于几何PMF来说

\[p_{X-n\|X>n}(k) = p_X(k)\]

我们称几何PMF/几何分布的这种性质为无记忆性 memorylessness ，表示其未来发生的事和过去没有关系。

从PMF的图像上我们也可以看到这一点:

把前两列去掉并做偏移之后，对下图需要进行标准化（缩放）使得所有k的概率之和为1。而缩放完的的结果和$p_X(k)$无异。

而直接的代数证明也十分容易：

\[p_{X-n\|X>n}(k) = p_{X\|X>n}(k+n) = \frac{(1-p)^{k+n-1}p}{P(X>n)} = \frac{(1-p)^{k+n-1}p}{(1-p)^n} = (1-p)^{k-1}p = p_X(k)\]

由此我们可知，几何分布的期望也是没有记忆的

\[E[X-n\|X>n] = \sum_{x-n} (x-n)p_{X-n\|X>n}(x-n) = \sum_k kp_{X}(k) = E[X]\]

因为在浪费了n个投硬币机会后，之后投硬币的情况和之前并无任何区别

运用几何PMF的无记忆性，我们可以计算出其期望。不过在此之前，先引入一个定理

Total Expectation theorem 全期望定理/公式

由全概率公式，我们知道一个事件的概率可以由其在各个互斥事件中的占比的加权和表示，即

\[P(B) = P(A_1)P(B\|A_1)+\cdots+P(A_n)P(B\|A_n)\qquad(0)\]

而对于PMF来说，也是如此

\[p_X(x) = P(A_1)p_{X\|A_1}(x)+\cdots+P(A_n)P_{X\|A_n}(x)\qquad(1)\]

因为当x取一个特定的值时，$p_X(x)$就是$P(X=x)$，$p_{X|A_i}(x)$就是$P(X=x|A_i)$

$(1)$式就是

\[P(X=x) = P(A_1)P(X=x\|A_1)+\cdots+P(A_n)P(X=x\|A_n)\]

$(0)$式中的事件B，就是“$X=x$”

于是$X$的期望就可以用$(1)$式表示

\[E[X] = \sum_x xp_X(x) \\= \sum_x x(P(A_1)p_{X\|A_1}(x)+\cdots+P(A_n)P_{X\|A_n}(x))\\ =P(A_1)\sum_x xp_{X\|A_1}(x)+\cdots+P(A_n)\sum_x xp_{X\|A_n}(x)\\ =P(A_1)E[X\|A_1]+\cdots+P(A_n)E[X\|A_n]\]

我们称该公式

\[E[X] = P(A_1)E[X\|A_1]+\cdots+P(A_n)E[X\|A_n]=\sum_{k=1}^n P(A_k)E[X\|A_k]\]

为全期望定理/公式 Total Expectation theorem

其中$A_1,\cdots,A_n$为样本空间$\Omega$的一个划分

直观上说明了一个随机变量的期望是其在每种情况下期望的加权和

运用全期望定理和几何级数的无记忆性，我们可以通过概率论的方法计算出几何分布的期望：

假设事件$A_1$是${X=1}$，事件$A_2$是${X>1}$，显然$A_1,A_2$是$\Omega$的一个划分

那么运用全概率公式我们知道

\[E[X] = P(X=1)E[X\|X=1]+P(X>1)E[X\|X>1]\\ =pE[X\|X=1] + (1-p)E[X\|X>1]\qquad(3)\]

$E[X|X=1]$显然是1，因为在$X=1$的条件下，$X$只可能是1

而对于$E[X|X>1]$，我们运用期望的线性性质稍作变换，再通过几何分布期望的无记忆性，可以得出

\[E[X\|X>1] = E[X-1+1\|X>1] \\= E[X-1\|X>1]+E[1\|X>1]\\ =E[X]+1\]

讲其代入$(3)$式

\[E[X] = p+(1-p)(E[X]+1)\]

我们可以解出$E[X] = \frac{1}{p}$

这确实符合常理，投出正面的概率越小，我们一般就需要更多的次数来投出正面，反之。

上述的方法运用了分治的思想。

Joint PMF 联合PMF

取一个学校的学生为样本，我如果想知道身高为a，体重为b的学生出现的概率，很自然地就想到建立拥有两个变量的概率质量函数

联合PMF joint PMF是拥有多个变量的PMF

一个二元的联合PMF可以这么表示

\[p_{X,Y}(x,y) = P(X=x\ and\ Y=y)\]

严谨的写就是

\[p_{X,Y}(x,y) = P(\{\omega\|\omega\in \Omega,\ X(\omega) = x \wedge Y(\omega)=y\})\]

下图是一个例子

我们可以知道对应x，y的概率，无非就是一个离散的二元函数

显然，所有的概率之和为1

\[\sum_x\sum_yp_{X,Y}(x,y) = 1\]

如果我只关心X的PMF，我只需要把对应x的所有Y的概率加起来即可

\[p_X(x) = \sum_yP_{X,Y}(x,y)\]

我们称这样的PMF为边际PMF marginal PMF

我们也可以由联合PMF得出y等于某个值时X的条件PMF

在y等于某个特定的值时，x为不同值的概率之间的比例是不变的，我们只需要将x的概率标准化即可

即计算每个X的值在事件Y = y中的占比

\[p_{X\|Y}(x\|y) = P(X=x\|Y=y) = \frac{p_{X,Y}(x,y)}{p_Y(y)}\]

把这样所有的条件概率相加，和依然是1，因为条件概率无非就是在一个新宇宙中重新审视概率

\[\sum_xp_{X\|Y}(x\|y) = 1\]

参考资料：MIT6.041公开课程及讲义

TaKeTube

Abstractness is the price of Generality.