MIT 6.041 Probabilistic Systems Analysis and Applied Probability - 8.Continuous Random Variables

8.Continuous Random Variables 连续随机变量

Continuous Random Variables 连续随机变量

连续随机变量是值域连续的随机变量,也就是说,连续变量的取值可以是任意实数。但是这些说法都有些不严谨,这里采用书上的定义:

一个随机变量$X$的概率分布能被一个非负函数$f_X$(称之为概率密度函数 probablility density function PDF)描述,满足

\[P(X\in B) = \int_Bf_X(x)dx\]

则称这个随机变量是连续的 continuous

从理解上并不难,对于不可数无穷 uncountable infinite的样本空间里的每一个样本,给其赋上一个实数值,而这些实数值也是不可数无穷的,并且是“连续的”(区别于离散),能通过一个函数描述概率分配。

而概率密度函数 PDF,就可以类比于离散状况的概率质量函数 PMF,我们可以通过PDF找到某个事件的概率。PMF中通过求和,而PDF中通过积分。如果$X$落在一个区间$[a,b]$上,那么该事件概率就为

\[P(a\leq X\leq b) = \int_a^bf_X(x)dx\]

1

区别于PMF描述实轴上一个点一个点的“质量”,PDF描述的是实轴上某个部分的“密度”,即哪块地方发生的概率更大(但是这样的描述稍微有些不严谨,之后再讨论)

因为描述的是概率,所以所有的X取值的概率之和就是1

\[\int_{-\infty}^\infty f_X(x)dx = 1\]

如果X是一个单独的取值,那这个事件的概率是多少?

从直观上来讲,因为样本空间是不可数无穷的,取一个样本,概率肯定是0

在PDF上的反应即是,一个点的下方的面积是0

\[P(X=a) = P(a\leq X\leq b) = \int_a^a f_X(x)dx = 0\]

所以,PDF中的密度,代表的并不是概率。那其代表了什么呢?

让我们来看小间隔的概率

\[P(x \leq X \leq x+\delta)=\int_{x}^{x+\delta} f_{X}(s) d s \approx f_{X}(x) \cdot \delta\]

2

在很小的间隔内,图像下的面积就约等于矩形的面积,我们将右侧的$\delta$除到左侧

\[\frac{P(x \leq X \leq x+\delta)}{\delta} = f_X(x)\]

就可以知道,PDF中的密度表示的是每单位长度小区间的概率,它的单位是概率/长度

所以我们说,概率密度大的地方概率不一定大,因为没考虑区间长度。正确的说法应该是,在区间相同的情况下,概率密度(PDF的值)大的地方,概率大。

由于PDF表示的是概率密度,所以其值可以超过1,可以在某些地方变得相当大,只要保证整个区间上的积分为1即可。

Means & Variances 期望和方差

类比于离散随机变量,我们可以给出连续随机变量的期望和方差

\[E[X] = \int_{-\infty}^\infty xf_X(x)dx\\ E[g(X)] = \int_{-\infty}^\infty g(x)f_X(x)dx\\ var(X) = \sigma_X^2 = \int_{-\infty}^\infty (x-E[X])^2f_X(x)dx\]

期望的物理意义依旧没有变化,即随机变量轴的重心(和物理里学的重心公式无区别)

期望仍然保有线性性质,即

\[E[\alpha X+\beta] = \alpha E[X]+\beta\]

证明十分容易,略

而方差和期望的关系,仍然保持,即

\[var(X) = E[X^2]-E[X]^2\]

证明:

\[E[(X-E[X])^2] = \int_{-\infty}^\infty(x-E[X])^2f_X(x)dx \\= \int_{-\infty}^\infty(x^2-2xE[X]+E[X]^2)f_X(x)dx\\ = \int_{-\infty}^\infty x^2f_X(x)dx - 2E[X]\int_{-\infty}^\infty xf_X(x)dx + E[X]^2\int_{-\infty}^\infty f_X(x)dx\\ =E[X^2] - 2E[X]E[X] + E[X]^2\cdot 1\\ =E[X^2]-E[X]^2\]

方差的另一个性质同样满足

\[var(\alpha X+\beta) = \alpha^2 var(X)\]

连续随机变量的期望与方差与离散随机变量除了定义以外并无太大区别,各种关系式都满足

Cumutative distribution function CDF 累积分布函数

有没有一个方法把离散随机变量和连续随机变量统一起来呢?

那就是累积分布函数 Cumutative distribution function CDF,表示的是随机变量从负无穷到x的概率,即概率的累积。

对于一个连续随机变量$X$,其累积分布函数 Cumutative distribution function CDF

\[F_X(x) = P(X\leq x) = \int_{-\infty}^\infty f(X)(t)dt\]

这是一个例子:

3

对于一个离散随机变量$X$,其CDF为

\[F_X(x) = P(X\leq x) = \sum_{k\leq x}p_X(k)\]

4

在CDF跳跃处,即上例的1、2、4处,CDF的取值分别为1/6,3/6,2/6。这是因为其定义是$P(X\leq x)$,等于号是取得到的。

离散随机变量的CDF本质上也是个积分$\int_{-\infty}^\infty f(X)(t)dt$,为什么呢?

只要把每个离散随机变量取值处的概率看作是冲激函数 impulse function(狄拉克δ函数)的对应概率倍,e.g. 上图2处看成$\frac{1}{2}\delta(x-2)$,那么就没有任何区别了。

关于单位冲激函数,可以看我的这篇专栏文章

https://zhuanlan.zhihu.com/p/105629592

而由于总概率为1,所以累积分布函数最后会趋于1,即

\[\lim_{x\rightarrow\infty}F_X(x) = 1\]

因为是累积,所以CDF永远是递增的(但不一定是严格递增的)

通过CDF,也可以反求PDF/PMF

\[\frac{dF_X}{dx}(x) = f_X(x)\quad(\text{almost everywhere})\]

CDF的导数几乎处处等于PDF/PMF,除了在不连续的点处。如第一个例子,在a,b处导数是不存在的,但是这并不会影响PDF,因为单点的概率为0,在a,b处的PDF可以不确定或者自行定义。而对于第二个例子,在1、2、4处(即离散随机变量取值处),普通意义下的导数是不存在的,但是我们可以允许存在广义导数,而结果就是放缩过的冲激函数,因此,用导数来得到PMF也是合理的。

Mixture Random Variables 混合随机变量

除了离散/连续随机变量,CDF为我们提供了更多的信息,那就是处理混合随机变量 Mixture Random Variables,其既有离散的部分(即一个随机变量取值取一个概率),也有连续的部分(需要由积分/面积确定概率)

比如一个游戏,我有一半的可能直接得到1/2积分,另一半可能参加转盘游戏,等可能得到在$[0,1]$中的任意一个数的积分数。设我得到的积分数是随机变量,那其既不是连续随机变量,因为它有一个取值有固定的概率,也不是离散随机变量,因为其有部分概率是需要通过积分得到的。这就是一个混合随机变量。

把它的PDF/PMF作出来

5

其CDF就是

6

$\frac{1}{2}$处的“离散”部分,可以视作一个冲击 impulse

所以换句话说,如果可以把离散随机变量的部分看作是冲激函数的话,概率密度函数和概率质量函数其实就是一个东西了。

Gaussian (normal) PDF 高斯(正态)PDF

正态分布是最重要的概率分布之一,当一个随机变量由许多小的随机变量组成,不管小的随机变量是怎么分布的,这个大的随机变量总是大约满足一个正态分布,这使得正态分布在许多情况下都自然地出现。

一个标准的正态分布 Standard normal $N(0,1)$的PDF定义如下:

\[f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2}\]

7

其钟形曲线十分典型。标准正态分布PDF前的系数是为了使得其从负无穷到正无穷的积分为1(该积分是多元微积分的典型例题,熟悉的面孔,平方再极坐标换元做二重积分即可)

其期望根据对称性是0,i.e.$E[X] = 0$

其方差是1,i.e. $var(X) = 1$

证明

\[var(X) =\int_{-\infty}^\infty (x-E[X])^2f_X(x)dx\\ = \int_{-\infty}^\infty x^2\frac{1}{\sqrt{2\pi}}e^{-x^2/2} dx\\ =\frac{1}{\sqrt{2\pi}}(-xe^{-x^2/2}\big|_{-\infty}^{+\infty}+\int_{-\infty}^\infty e^{-x^2/2} dx)\\ =\int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}}e^{-x^2/2} dx\\ =1\]

一个普通的正态分布$N(\mu,\sigma^2)$的PDF如下

\[f_X(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-(x-\mu)^2 / 2 \sigma^2}\]

我们根据函数的平移和缩放的性质,可以很清楚的得知该正态分布是如何通过标准标准正态分布得来的:

首先是左右拉伸$\sigma$倍,$g(x) = f(x/\sigma)$,再标准化使得总积分为1:

\[\frac{1}{\sigma\sqrt{2\pi}}e^{-(x/\sigma)^2/2} = \frac{1}{\sigma\sqrt{2\pi}}e^{-x^2/2\sigma^2}\]

再是向右平移$\mu$个单位,$h(x) = g(x-\mu)$:

\[\frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2}\]

由此我们可知,$\sigma$越大,正态分布越宽,高度越小;$\sigma$越小,正态分布越窄,高度越大。而$\mu$因为是平移量,所以决定了正态分布的中心。

由对称性可知,期望为$E[X] = \mu$

由方差的性质,由于平移对数据的分散情况也就是方差没有影响,考虑拉伸过的正态分布$\frac{1}{\sigma\sqrt{2\pi}}e^{-x^2/2\sigma^2}$

另$x = \sigma t, dx = \sigma dt$

\[var(X) = \int_{-\infty}^\infty x^2\frac{1}{\sigma\sqrt{2\pi}}e^{-x^2/2\sigma^2}dx\\ =\int_{-\infty}^\infty \sigma^2t^2\frac{1}{\sigma\sqrt{2\pi}}e^{-t^2/2}\sigma dt\\ =\sigma^2 \int_{-\infty}^\infty t^2\frac{1}{\sqrt{2\pi}}e^{-t^2/2} dt\\ =\sigma^2 var_{N(0,1)}(X)\\ =\sigma^2\]

所以方差为$var(X) = \sigma^2$,由此也可见,$\sigma$ 越大,方差越大,变量取值就越分散

正态分布还有一个很好的性质,即正态分布的随机变量的线性函数仍然是正态分布

另$Y=aX+b$,$X$满足标准正态分布$N(0,1)$

那么$Y \sim N(a\mu+b,a^2\sigma^2)$

后几节课会证明此式,但从直观的角度来看,$Y$无非就是$X$放缩和平移后的结果,那么对应的概率密度函数同样也只是放缩和平移,所以仍然是满足正态分布

Calculating normal probabilities 计算正态分布的概率

标准正态分布的累积分布函数 CDF如下

\[\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt\]

但是这个式子没有一个很好的封闭表达,不是初等函数。一般正态分布的CDF也是如此。因此,为了计算正态分布的某一区间的概率,我们可以通过查表得到相应的值。其中对于一般的正态分布,要进行相应的缩放与平移。

现在我们已知标准正态分布$N(0,1)$的CDF对应的函数表

现在我想计算正态分布$N(\mu,\sigma^2)$ $X$从$-\infty$到3的概率

因为$N(\mu,\sigma^2)$是由$N(0,1)$拉伸$\sigma$倍再向右平移$\mu$得来的

所以只要将$X$减去$\mu$,即中心值,再缩小$\sigma$倍,i.e. $\frac{X-\mu}{\sigma}$,就是对应标准正态分布的位置

\[\frac{X-\mu}{\sigma}\sim N(0,1)\]

所以如果我想计算正态分布$X\sim N(2,16)$ 的$P(X\leq3)$

\[P(X\leq 3) = P(\frac{X-2}{4}\leq\frac{3-2}{4}) = CDF(\frac{1}{4})\]

只需将3平移回标准正态分布对应的位置即可

参考资料:MIT6.041公开课程及讲义

Categories:

Probability   Math   MIT 6.041 Probabilistic Systems Analysis and Applied Probability