一、前言
经 验 分 布 函 数 是考研数学大纲中的一个“冷门”知识点,考察频次较低。但是,对于考研的学子们来说,再“冷门”的知识点,我们都要认真学习。
在本文中,「荒原之梦考研数学」将结合离散型随机变量的分布函数和直观形象的示意图,让同学们快速理解什么是“ 经 验 分 布 函 数 ”。
二、解析
一般情况下,我们对于随机变量 $X$ 整体的分布函数 $F$ 是难以准确知道的,所以,在实际应用中就引入了 经 验 分 布 函 数(Empirical Distribution Function)。
所谓“ 经 验 分 布 函 数 ”就是将从总体中抽取到的 $n$ 个样本的观测值出现的频率,近似看作随机变量 $X$ 发生的概率——样本的观测值就是“ 经 验 分 布 函 数 ”中的“ 经 验 ”。
无论随机变量 $X$ 是连续型随机变量还是离散型随机变量,都可以有 经 验 分 布 函 数 。事实上,经 验 分 布 函 数 与离散型随机变量的分布函数在形式上几乎是完全一致的,因为,即便 $X$ 是连续型随机变量,我们在其中抽取的样本也是离散的。
下面,我们就通过对比的方式,借助离散型随机变量的分布函数,来理解 经 验 分 布 函 数 。
离散型随机变量的分布函数
假设离散型随机变量 $X$ 的分布律如下:
$X$ | $\textcolor{#00FF02}{1}$ | $\textcolor{#00FF02}{2}$ | $\textcolor{#00FF02}{3}$ |
$P$ | $\frac{1}{2}$ | $\frac{1}{6}$ | $\frac{1}{3}$ |
将上面的分布律绘制到 $X – P$ 坐标系中,就可以得到如图 01 所示的分布密度柱状图:
接下来,根据上面的信息,分段进行分析。
- 当 $x < \textcolor{#00FF02}{1}$ 的时候,很显然没有包含任何变量,于是,此时的概率 $P \{ x < \textcolor{#00FF02}{1} \}$ $=$ $0$, 如图 02 所示:
- 当 $\textcolor{#00FF02}{1} \leqslant x < \textcolor{#00FF02}{2}$ 的时候,包含了一个随机变量 $\textcolor{#00FF02}{1}$, 于是,此时的概率 $P \{ \textcolor{#00FF02}{1} \leqslant x < \textcolor{#00FF02}{2} \}$ $=$ $\frac{1}{2}$, 如图 03 所示:
- 当 $\textcolor{#00FF02}{2} \leqslant x < \textcolor{#00FF02}{3}$ 的时候,包含了两个随机变量 $\textcolor{#00FF02}{1}$ 和 $\textcolor{#00FF02}{2}$, 于是,此时的概率 $P \{ \textcolor{#00FF02}{2} \leqslant x < \textcolor{#00FF02}{3} \}$ $=$ $\frac{1}{2}$ $+$ $\frac{1}{6}$ $=$ $\frac{2}{3}$, 如图 04 所示:
- 当 $x \geqslant \textcolor{#00FF02}{3}$ 的时候,包含了全部三个随机变量 $\textcolor{#00FF02}{1}$, $\textcolor{#00FF02}{2}$ 和 $\textcolor{#00FF02}{3}$, 于是,此时的概率 $P \{ x \geqslant \textcolor{#00FF02}{3} \}$ $=$ $1$, 如图 05 所示:
于是,我们可以得到这组离散型随机变量的概率分布函数:
$$
\textcolor{springgreen}{
F(x) = \begin{cases}
0, & x < 1 \\ \\
\frac{1}{2}, & 1 \leqslant x < 2 \\ \\
\frac{2}{3}, & 2 \leqslant x < 3 \\ \\
1, & x \geqslant 3
\end{cases}
}
$$
如果我们将上面的概率分布函数绘制到 $x – F$ 坐标系中,就可以得到如图 06 所示的分布函数柱状图:
经验分布函数
假如我们从总体中取出来了 $8$ 个样本,这些样本的观测值分别为:
$$
X = \{ \textcolor{#00FF02}{300}, \textcolor{#00FF02}{100}, \textcolor{#00FF02}{200}, \textcolor{#00FF02}{300}, \textcolor{#00FF02}{300}, \textcolor{#00FF02}{100}, \textcolor{#00FF02}{000}, \textcolor{#00FF02}{300} \}
$$
则通过对上面样本观测值的统计可知:
- 观测值 $\textcolor{#00FF02}{000}$ 出现了 $1$ 次;
- 观测值 $\textcolor{#00FF02}{100}$ 出现了 $2$ 次;
- 观测值 $\textcolor{#00FF02}{200}$ 出现了 $1$ 次;
- 观测值 $\textcolor{#00FF02}{300}$ 出现了 $4$ 次;
于是:
$X$ | $\textcolor{#00FF02}{000}$ | $\textcolor{#00FF02}{100}$ | $\textcolor{#00FF02}{200}$ | $\textcolor{#00FF02}{300}$ |
频次 | $\frac{1}{8}$ | $\frac{1}{4}$ | $\frac{1}{8}$ | $\frac{1}{2}$ |
如果我们将样本出现的的“频次”看作其“概率”,并用 $\hat{P}$ 表示,则可以在 $X – \hat{P}$ 坐标系中,得到如图 07 所示的分布密度柱状图:
如果我们把上面的柱状图用线条连接起来,就会看到类似连续型随机变量的分布密度函数图像(如果我们有很多这样的观测值,那么,所得到的图像会越来越接近总体的分布密度函数图像):
接下来,根据上面的信息,分段进行分析。
- 当 $x < \textcolor{#00FF02}{000}$ 的时候,很显然没有包含任何随机变量的观测值,于是,此时的概率 $P \{ x < \textcolor{#00FF02}{000} \}$ $=$ $0$, 如图 09 所示:
- 当 $\textcolor{#00FF02}{000} \leqslant x < \textcolor{#00FF02}{100}$ 的时候,包含了一个随机变量 $\textcolor{#00FF02}{000}$, 于是,此时的概率 $P \{ \textcolor{#00FF02}{000} \leqslant x < \textcolor{#00FF02}{100} \}$ $=$ $\frac{1}{8}$, 如图 10 所示:
- 当 $\textcolor{#00FF02}{100} \leqslant x < \textcolor{#00FF02}{200}$ 的时候,包含了两个随机变量 $\textcolor{#00FF02}{000}$ 和 $\textcolor{#00FF02}{100}$, 于是,此时的概率 $P \{ \textcolor{#00FF02}{100} \leqslant x < \textcolor{#00FF02}{200} \}$ $=$ $\frac{1}{8}$ $+$ $\frac{1}{4}$ $=$ $\frac{3}{8}$, 如图 11 所示:
- 当 $\textcolor{#00FF02}{200} \leqslant x < \textcolor{#00FF02}{300}$ 的时候,包含了三个随机变量 $\textcolor{#00FF02}{000}$, $\textcolor{#00FF02}{100}$ 和 $\textcolor{#00FF02}{200}$, 于是,此时的概率 $P \{ \textcolor{#00FF02}{200} \leqslant x < \textcolor{#00FF02}{300} \}$ $=$ $\frac{1}{8}$ $+$ $\frac{1}{4}$ $+$ $\frac{1}{8}$ $=$ $\frac{1}{2}$, 如图 12 所示:
- 当 $x \geqslant \textcolor{#00FF02}{300}$ 的时候,包含了四个随机变量 $\textcolor{#00FF02}{000}$, $\textcolor{#00FF02}{100}$, $\textcolor{#00FF02}{200}$ 和 $\textcolor{#00FF02}{300}$, 于是,此时的概率 $P \{ x \geqslant \textcolor{#00FF02}{300} \}$ $=$ $\frac{1}{8}$ $+$ $\frac{1}{4}$ $+$ $\frac{1}{8}$ $+$ $\frac{1}{2}$ $=$ $1$, 如图 13 所示:
于是可知,对应的 经 验 分 布 函 数 为:
$$
\textcolor{springgreen}{
\hat{F}_{8}(x) = \begin{cases}
0, & x < 000 \\ \\
\frac{1}{8}, & 000 \leqslant x < 100 \\ \\
\frac{3}{8}, & 100 \leqslant x < 200 \\ \\
\frac{1}{2}, & 200 \leqslant x < 300 \\ \\
1, & x \geqslant 300
\end{cases}
}
$$
将上面的 经 验 分 布 函 数 绘制到 $x – \hat{F}_{8}(x)$ 坐标系中,则如图 14 所示:
Note
[1]. “$\hat{F}_{8}(x)$” 中的下标 “$8$” 指的是该 经 验 分 布 函 数 包含 $8$ 个样本;
zhaokaifeng.com
[2]. 在概率论和梳理统计中,我们常常通过在一个符号的上面加上 $\hat{}$ 的方式表示这是一个“估计量”、“似然量”或者“猜测量”,而本文中的 经 验 分 布 函 数 也是一种“猜测函数”或者“估计函数”。
应用例题
题目
某食品厂生产瓶装饮料,现从生产线上随机抽取 $4$ 瓶饮料,称得其净重(单位:$\mathrm{g})$ 为:$\textcolor{#00FF02}{356}$, $\textcolor{#00FF02}{352}$, $\textcolor{#00FF02}{346}$, $\textcolor{#00FF02}{352}$, 请写出该样本的 经 验 分 布 函 数 。
解析
首先,将抽取的 $4$ 瓶饮料的净重数据(即“样本观测值”)按照从小到大的顺序进行排列,这样才能方便我们接下来确定 经 验 分 布 函 数 各部分的区间:
$$
346, \quad 352, \quad 352, \quad 356
$$
接着,对样本观测值的出现频次进行统计,不同数值的样本出现的次数和频次如下表所示:
样本 | $\textcolor{#00FF02}{346}$ | $\textcolor{#00FF02}{352}$ | $\textcolor{#00FF02}{356}$ |
次数 | $1$ | $2$ | $1$ |
频次 | $\frac{1}{4}$ | $\frac{1}{2}$ | $\frac{1}{4}$ |
综上,该样本的 经 验 分 布 函 数 $\hat{F}_{4}(x)$ 为:
$$
\textcolor{springgreen}{
\hat{F}_{4}(x) = \begin{cases}
0, & x < 346 \\ \\
\frac{1}{4}, & 346 \leqslant x < 352 \\ \\
\frac{3}{4}, & 352 \leqslant x < 356 \\ \\
1, & x \geqslant 356
\end{cases}
}
$$
高等数学
涵盖高等数学基础概念、解题技巧等内容,图文并茂,计算过程清晰严谨。
线性代数
以独特的视角解析线性代数,让繁复的知识变得直观明了。
特别专题
通过专题的形式对数学知识结构做必要的补充,使所学知识更加连贯坚实。
让考场上没有难做的数学题!