一、前言
概率统计中的期望和均值是否相等?期望和均值之间存在着怎样的联系与区别?在本文中,「荒原之梦考研数学」将为同学们讲解明白这一问题。
二、正文
随机变量和样本观测值的区别
在阅读本文接下来的内容之前,读者们需要首先清楚随机变量和样本观测值之间的区别——
简单地来说,随机变量的具体取值就是样本的观测值,详细阐述可以参考「荒原之梦考研数学」的《图解随机变量和样本观测值的联系与区别》这篇文章。
期望的定义
首先,我们来看看期望的定义:
- 若 $X_{i}$ 为离散型随机变量,$p_{i}$ 为每个随机变量发生的概率,且 $\sum_{i}^{\infty} X_{i} \cdot p_{i}$ 收敛,则总体 $X$ 的数学期望 $\mathrm{E} (X)$ $=$ $\sum_{i}^{\infty} X_{i} \cdot \textcolor{orange}{p_{i}}$;
- 若 $X$ 为连续型随机变量,$f(X)$ 为 $X$ 的概率密度函数,且 $\int_{- \infty}^{+ \infty} X \cdot f(X) \mathrm{~d} X$ 收敛,则总体 $X$ 的数学期望 $\mathrm{E} (X)$ $=$ $\int_{- \infty}^{+ \infty} X \cdot \textcolor{orange}{f(X)} \mathrm{~d} X$.
Note
在有些资料中,也将期望写成 $\mathrm{E} (X)$ $=$ $\sum_{i}^{\infty} x_{i} \cdot p_{i}$ 或 $\mathrm{E} (X)$ $=$ $\int_{- \infty}^{+ \infty} x \cdot f(x) \mathrm{~d} x$.
zhaokaifeng.com
均值的定义
接着,我们来看一看均值的定义:
若 $x_{1}$, $x_{2}$, $\cdots$, $x_{n}$ 为样本的观测值,则样本均值为:
$$
\bar{x} = \frac{1}{n} \left( x_{1} + x_{2} + \cdots + x_{n} \right)
$$
期望和均值的联系
也就是说,对总体中一部分样本求出来的均值只是样本均值 $\bar{x}$, 但如果我们能对总体 $X$ 的所有随机变量对应的取值做一个平均,则这个均值,就是总体的期望 $\mathbf{E}(X)$.
然而,在很多概率事件中,我们事实上无法穷尽随机变量所有的取值,只能取得总体中的一部分样本,并对样本做均值计算——
不过,如果我们可以取得很大量的样本,那么,根据大数定理,所得的样本均值就可以看作是总体的期望,即:
$$
\boxed{
\bar{x} \textcolor{lightgreen}{ \leadsto } \textcolor{black}{\colorbox{lightgreen}{大数定理}} \textcolor{lightgreen}{ \leadsto } \mathbf{E} (X) = \begin{cases}
\sum_{i}^{\infty} X_{i} \cdot \textcolor{orange}{p_{i}} \\ \\
\int_{- \infty}^{+ \infty} X \cdot \textcolor{orange}{f(X)} \mathrm{~d} X
\end{cases}
}
$$
Note
如果说期望是先验知识,而均值是后验知识,那么,大数定理其实相当于连接了过去(先验)和未来(后验)。
zhaokaifeng.com
为什么?
那么,为什么在大量随机试验中,均值就相当于期望呢?
首先,从数学的定义上来说,期望的计算公式和均值的计算公式其实是等效的。
例如,我们有如下的离散型样本值:
$$
\textcolor{yellow}{
1, \quad 2, \quad 3, \quad 2, \quad 2, \quad 1
}
$$
观察可知,其中涉及三个随机变量 $\textcolor{violet}{1}$, $\textcolor{violet}{2}$, $\textcolor{violet}{3}$, 每个随机变量发生的频次(概率)为:
$$
\begin{aligned}
& \textcolor{violet}{1} \rightarrow p(1) = \textcolor{pink}{ \frac{1}{3} } \\ \\
& \textcolor{violet}{2} \rightarrow p(2) = \textcolor{pink}{ \frac{1}{2} } \\ \\
& \textcolor{violet}{3} \rightarrow p(3) = \textcolor{pink}{ \frac{1}{6} }
\end{aligned}
$$
于是,按照期望的计算方式,我们有:
$$
\textcolor{violet}{1} \times \textcolor{pink}{\frac{1}{3}} + \textcolor{violet}{2} \times \textcolor{pink}{\frac{1}{2}} + \textcolor{violet}{3} \times \textcolor{pink}{\frac{1}{6}} = \textcolor{springgreen}{ \frac{11}{6} }
$$
而按照均值的计算方式,也同样有:
$$
\frac{1}{6} \left( \textcolor{yellow}{1} + \textcolor{yellow}{2} + \textcolor{yellow}{3} + \textcolor{yellow}{2} + \textcolor{yellow}{2} + \textcolor{yellow}{1} \right) = \textcolor{springgreen}{ \frac{11}{6} }
$$
对于连续型随机变量,仍然具有类似上述的原理。
当然,所谓“期望”就是样本的取值最可能落在的位置(虽然样本值可能不一定刚好落在期望上,甚至永远不可能落在期望上,比如六面骰子点数的期望是 $\frac{1}{6} \left( 1 + 2 + 3 + 4 + 5 + 6 \right)$ $=$ $3.5$, 而我们知道,骰子并没有哪个面有 $3.5$ 个点。)。
所以,如果从自然世界的角度来说,为什么大量样本的均值可以被看作期望?
因为, 世 界 所 表 现 出 来 的 大 部 分 概 率 规 律 就 是 这 样 。
例如,自然世界中的大部分概率规律都近似符合正态分布,而在正态分布中,大部分样本点都会落在其期望 $\mu$ 的附近:
所以,期望所指向的是一种最平衡的状态,这也是所有随机变量最可能落在的地方。
其实人类社会也是一样,无论我们小时候有多少绚丽的梦想,长大后的大部分人都会归于平庸,这就是宇宙刻下的定律,没有为什么,就是这样而已。
然而,我们仍然要为此感到自豪,因为,这也意味着,我们是一个更宏大世界的一份子——在这个宏大的世界,概率的曲线如同飞舞的长袖,每一次起伏和波动,都创造着绚烂和暗淡、飞腾与落幕,也许光芒夺目,也许默默无闻,但这就是世界。
高等数学
涵盖高等数学基础概念、解题技巧等内容,图文并茂,计算过程清晰严谨。
线性代数
以独特的视角解析线性代数,让繁复的知识变得直观明了。
特别专题
通过专题的形式对数学知识结构做必要的补充,使所学知识更加连贯坚实。
让考场上没有难做的数学题!