峰图 | 经验分布函数的图形化理解

什么是“峰图”：
峰图（Feng Graph）指的是，由「荒原之梦」（zhaokaifeng.com）原创的一种基于抽象图形的数学定理可视化定义、解释、推导与应用的方法. 「荒原之梦」认为，和自然语言一样，数学的本质原理并不局限于特定的表达形式. 所以，如果说传统上的数学是基于数字（包括各种符号）进行描述的数字数学，那么，峰图就是要建立（现在是局部建立）基于图形的，数字数学的几何形态“克隆体”，并力求使数学原理的表述和数学问题的解答变得更加简单、直观且易于理解.

一、前言

经验分布函数是考研数学大纲中的一个“冷门”知识点，考察频次较低。但是，对于考研的学子们来说，再“冷门”的知识点，我们都要认真学习。

在本文中，「荒原之梦考研数学」将结合离散型随机变量的分布函数和直观形象的示意图，让同学们快速理解什么是“ 经验分布函数 ”。

二、解析

一般情况下，我们对于随机变量 $X$ 整体的分布函数 $F$ 是难以准确知道的，所以，在实际应用中就引入了经验分布函数（Empirical Distribution Function）。

所谓“ 经验分布函数 ”就是将从总体中抽取到的 $n$ 个样本的观测值出现的频率，近似看作随机变量 $X$ 发生的概率——样本的观测值就是“ 经验分布函数 ”中的“ 经验 ”。

无论随机变量 $X$ 是连续型随机变量还是离散型随机变量，都可以有经验分布函数。事实上，经验分布函数与离散型随机变量的分布函数在形式上几乎是完全一致的，因为，即便 $X$ 是连续型随机变量，我们在其中抽取的样本也是离散的。

下面，我们就通过对比的方式，借助离散型随机变量的分布函数，来理解经验分布函数。

离散型随机变量的分布函数

假设离散型随机变量 $X$ 的分布律如下：

$X$	$\textcolor{#00FF02}{1}$	$\textcolor{#00FF02}{2}$	$\textcolor{#00FF02}{3}$
$P$	$\frac{1}{2}$	$\frac{1}{6}$	$\frac{1}{3}$

将上面的分布律绘制到 $X – P$ 坐标系中，就可以得到如图 01 所示的分布密度柱状图：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 01. 分布密度柱状图. — 图 01. 分布密度柱状图.

接下来，根据上面的信息，分段进行分析。

当 $x < \textcolor{#00FF02}{1}$ 的时候，很显然没有包含任何变量，于是，此时的概率 $P \{ x < \textcolor{#00FF02}{1} \}$ $=$ $0$, 如图 02 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 02. $x < 1$ 时的概率. — 图 02. $x < 1$ 时的概率.

当 $\textcolor{#00FF02}{1} \leqslant x < \textcolor{#00FF02}{2}$ 的时候，包含了一个随机变量 $\textcolor{#00FF02}{1}$, 于是，此时的概率 $P \{ \textcolor{#00FF02}{1} \leqslant x < \textcolor{#00FF02}{2} \}$ $=$ $\frac{1}{2}$, 如图 03 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 03. $1 \leqslant x < 2$ 时的概率. — 图 03. $1 \leqslant x < 2$ 时的概率.

当 $\textcolor{#00FF02}{2} \leqslant x < \textcolor{#00FF02}{3}$ 的时候，包含了两个随机变量 $\textcolor{#00FF02}{1}$ 和 $\textcolor{#00FF02}{2}$, 于是，此时的概率 $P \{ \textcolor{#00FF02}{2} \leqslant x < \textcolor{#00FF02}{3} \}$ $=$ $\frac{1}{2}$ $+$ $\frac{1}{6}$ $=$ $\frac{2}{3}$, 如图 04 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 04. $2 \leqslant x < 3$ 时的概率. — 图 04. $2 \leqslant x < 3$ 时的概率.

当 $x \geqslant \textcolor{#00FF02}{3}$ 的时候，包含了全部三个随机变量 $\textcolor{#00FF02}{1}$, $\textcolor{#00FF02}{2}$ 和 $\textcolor{#00FF02}{3}$, 于是，此时的概率 $P \{ x \geqslant \textcolor{#00FF02}{3} \}$ $=$ $1$, 如图 05 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 05. $x \geqslant 3$ 时的概率. — 图 05. $x \geqslant 3$ 时的概率.

于是，我们可以得到这组离散型随机变量的概率分布函数：

$$
\textcolor{springgreen}{
F(x) = \begin{cases}
0, & x < 1 \\ \\
\frac{1}{2}, & 1 \leqslant x < 2 \\ \\
\frac{2}{3}, & 2 \leqslant x < 3 \\ \\
1, & x \geqslant 3
\end{cases}
}
$$

如果我们将上面的概率分布函数绘制到 $x – F$ 坐标系中，就可以得到如图 06 所示的分布函数柱状图：

经验分布函数

假如我们从总体中取出来了 $8$ 个样本，这些样本的观测值分别为：

$$
X = \{ \textcolor{#00FF02}{300}, \textcolor{#00FF02}{100}, \textcolor{#00FF02}{200}, \textcolor{#00FF02}{300}, \textcolor{#00FF02}{300}, \textcolor{#00FF02}{100}, \textcolor{#00FF02}{000}, \textcolor{#00FF02}{300} \}
$$

则通过对上面样本观测值的统计可知：

观测值 $\textcolor{#00FF02}{000}$ 出现了 $1$ 次；
观测值 $\textcolor{#00FF02}{100}$ 出现了 $2$ 次；
观测值 $\textcolor{#00FF02}{200}$ 出现了 $1$ 次；
观测值 $\textcolor{#00FF02}{300}$ 出现了 $4$ 次；

于是：

$X$	$\textcolor{#00FF02}{000}$	$\textcolor{#00FF02}{100}$	$\textcolor{#00FF02}{200}$	$\textcolor{#00FF02}{300}$
频次	$\frac{1}{8}$	$\frac{1}{4}$	$\frac{1}{8}$	$\frac{1}{2}$

如果我们将样本出现的的“频次”看作其“概率”，并用 $\hat{P}$ 表示，则可以在 $X – \hat{P}$ 坐标系中，得到如图 07 所示的分布密度柱状图：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 07. 分布密度柱状图. — 图 07. 分布密度柱状图.

如果我们把上面的柱状图用线条连接起来，就会看到类似连续型随机变量的分布密度函数图像（如果我们有很多这样的观测值，那么，所得到的图像会越来越接近总体的分布密度函数图像）：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 08. 分布密度柱状图与分布密度函数图像之间的联系. — 图 08. 分布密度柱状图与分布密度函数图像之间的联系.

接下来，根据上面的信息，分段进行分析。

当 $x < \textcolor{#00FF02}{000}$ 的时候，很显然没有包含任何随机变量的观测值，于是，此时的概率 $P \{ x < \textcolor{#00FF02}{000} \}$ $=$ $0$, 如图 09 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 09. $x < 000$ 时的概率. — 图 09. $x < 000$ 时的概率.

当 $\textcolor{#00FF02}{000} \leqslant x < \textcolor{#00FF02}{100}$ 的时候，包含了一个随机变量 $\textcolor{#00FF02}{000}$, 于是，此时的概率 $P \{ \textcolor{#00FF02}{000} \leqslant x < \textcolor{#00FF02}{100} \}$ $=$ $\frac{1}{8}$, 如图 10 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 10. $000 \leqslant < x < 100$ 时的概率. — 图 10. $000 \leqslant < x < 100$ 时的概率.

当 $\textcolor{#00FF02}{100} \leqslant x < \textcolor{#00FF02}{200}$ 的时候，包含了两个随机变量 $\textcolor{#00FF02}{000}$ 和 $\textcolor{#00FF02}{100}$, 于是，此时的概率 $P \{ \textcolor{#00FF02}{100} \leqslant x < \textcolor{#00FF02}{200} \}$ $=$ $\frac{1}{8}$ $+$ $\frac{1}{4}$ $=$ $\frac{3}{8}$, 如图 11 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 11. $100 \leqslant x < 200$ 时的概率. — 图 11. $100 \leqslant x < 200$ 时的概率.

当 $\textcolor{#00FF02}{200} \leqslant x < \textcolor{#00FF02}{300}$ 的时候，包含了三个随机变量 $\textcolor{#00FF02}{000}$, $\textcolor{#00FF02}{100}$ 和 $\textcolor{#00FF02}{200}$, 于是，此时的概率 $P \{ \textcolor{#00FF02}{200} \leqslant x < \textcolor{#00FF02}{300} \}$ $=$ $\frac{1}{8}$ $+$ $\frac{1}{4}$ $+$ $\frac{1}{8}$ $=$ $\frac{1}{2}$, 如图 12 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 12. $200 \leqslant x < 300$ 时的概率. — 图 12. $200 \leqslant x < 300$ 时的概率.

当 $x \geqslant \textcolor{#00FF02}{300}$ 的时候，包含了四个随机变量 $\textcolor{#00FF02}{000}$, $\textcolor{#00FF02}{100}$, $\textcolor{#00FF02}{200}$ 和 $\textcolor{#00FF02}{300}$, 于是，此时的概率 $P \{ x \geqslant \textcolor{#00FF02}{300} \}$ $=$ $\frac{1}{8}$ $+$ $\frac{1}{4}$ $+$ $\frac{1}{8}$ $+$ $\frac{1}{2}$ $=$ $1$, 如图 13 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 13. $x \geqslant 300$ 时的概率. — 图 13. $x \geqslant 300$ 时的概率.

于是可知，对应的经验分布函数为：

$$
\textcolor{springgreen}{
\hat{F}_{8}(x) = \begin{cases}
0, & x < 000 \\ \\
\frac{1}{8}, & 000 \leqslant x < 100 \\ \\
\frac{3}{8}, & 100 \leqslant x < 200 \\ \\
\frac{1}{2}, & 200 \leqslant x < 300 \\ \\
1, & x \geqslant 300
\end{cases}
}
$$

将上面的经验分布函数绘制到 $x – \hat{F}_{8}(x)$ 坐标系中，则如图 14 所示：

经验分布函数的图形化理解 | 荒原之梦考研数学 | 图 14. 经验分布函数柱状图. — 图 14. 经验分布函数柱状图.

Note

[1]. “$\hat{F}_{8}(x)$” 中的下标 “$8$” 指的是该经验分布函数包含 $8$ 个样本；
[2]. 在概率论和梳理统计中，我们常常通过在一个符号的上面加上 $\hat{}$ 的方式表示这是一个“估计量”、“似然量”或者“猜测量”，而本文中的经验分布函数也是一种“猜测函数”或者“估计函数”。
zhaokaifeng.com

应用例题

题目

某食品厂生产瓶装饮料，现从生产线上随机抽取 $4$ 瓶饮料，称得其净重（单位：$\mathrm{g})$ 为：$\textcolor{#00FF02}{356}$, $\textcolor{#00FF02}{352}$, $\textcolor{#00FF02}{346}$, $\textcolor{#00FF02}{352}$, 请写出该样本的经验分布函数。

解析

首先，将抽取的 $4$ 瓶饮料的净重数据（即“样本观测值”）按照从小到大的顺序进行排列，这样才能方便我们接下来确定经验分布函数各部分的区间：

$$
346, \quad 352, \quad 352, \quad 356
$$

接着，对样本观测值的出现频次进行统计，不同数值的样本出现的次数和频次如下表所示：

样本	$\textcolor{#00FF02}{346}$	$\textcolor{#00FF02}{352}$	$\textcolor{#00FF02}{356}$
次数	$1$	$2$	$1$
频次	$\frac{1}{4}$	$\frac{1}{2}$	$\frac{1}{4}$

综上，该样本的经验分布函数 $\hat{F}_{4}(x)$ 为：

$$
\textcolor{springgreen}{
\hat{F}_{4}(x) = \begin{cases}
0, & x < 346 \\ \\
\frac{1}{4}, & 346 \leqslant x < 352 \\ \\
\frac{3}{4}, & 352 \leqslant x < 356 \\ \\
1, & x \geqslant 356
\end{cases}
}
$$

峰图 | 经验分布函数的图形化理解

一、前言

二、解析

离散型随机变量的分布函数

经验分布函数

应用例题

高等数学

线性代数

特别专题