一、前言
在本文中,「荒原之梦考研数学」将为同学们详细讲解概率论和数理统计中重要的参数估计方法之一的矩估计,并利用习题来验证我们学到的矩估计方法。
二、正文
什么是“矩估计”?
在「荒原之梦考研数学」的文章《点估计的原理》中,我们知道了点估计就是利用样本的统计特征来构造用于求解待估计参数的函数,之后求解这个函数,就可以得到待估计参数的估计值。而构造这个“函数”的方法有很多,其中一种就是用样本的“矩”来构造,对应的估计方法就是“矩估计”。
那么,这里的“矩”到底是什么统计特征呢?让我们接着往下看。
矩估计中的“矩”是什么?
样本的“矩”有原点矩、中心矩和混合矩三种,每一种矩一般都有 $1$ 阶、$2$ 阶,直到 $n$ 阶的不同具体形式,而所有这些“矩”在矩估计中都是可能用到的。
但是不要着急,我们一般常用的“矩”就是原点矩和中心矩,特别常用的则只有一阶原点矩和二阶原点矩。
至于混合矩,由于在考研数学中几乎不做考察,在本文中,「荒原之梦考研数学」也不做过多阐述。
$$
\textcolor{black}{\colorbox{lightgreen}{矩}} \textcolor{lightgreen}{ \leadsto } \begin{cases} \textcolor{white}{\colorbox{red}{原点矩}} \ \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} & \begin{cases}
\textcolor{white}{\colorbox{red}{一阶原点矩}} \ \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \\ \textcolor{white}{\colorbox{red}{二阶原点矩}} \ \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}}
\end{cases} \\ \\
\textcolor{black}{\colorbox{orange}{中心矩}} \ \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} & \begin{cases}
\textcolor{red}{ \cancel{ \textcolor{white}{ 一阶中心矩 }}} \\
\textcolor{black}{\colorbox{orange}{二阶中心矩}} \ \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}} \textcolor{yellow}{\Large{\boldsymbol{\star}}}
\end{cases} \\ \\
\textcolor{black}{\colorbox{gray}{混合矩}} \ \textcolor{yellow}{\Large{\boldsymbol{\star}}}
\end{cases}
$$
原点矩和中心矩
下面我们来详细看看什么是原点矩和中心矩。
无论是原点矩,还是中心矩,都来源于“矩”,而“矩”其实可以理解为“距离”——进一步说,“矩”就是随机变量或者样本到某个数值的“距离”,“$r$ 阶矩”就是这个距离的 $r$ 次方:
- 如果是全部随机变量 $x_{i}$(离散型)或 $x$(连续型)到 $0$ 的矩,则称为原点矩(如果是原点矩的 $r$ 次方,则称为 $r$ 阶原点矩);
- 如果是全部随机变量 $x_{i}$(离散型)或 $x$(连续型)到总体的期望 $E(X)$ 的矩,则称为中心矩(如果是中心矩的 $r$ 次方,则称为 $r$ 阶中心矩)。
具体来说,对于离散型随机变量 $x_{i}$($x_{i}$ 对应的概率为 $p(x_{i})$),在下式收敛的前提下,随机变量相对于值 $k$ 的 $n$ 阶矩为:
$$
\textcolor{lightgreen}{
\xi_{n} = \sum_{i=1}^{\infty} \textcolor{violet}{ \left( x_{i} – k \right)^{n} \cdot p \left( x_{i} \right) }
} \tag{1}
$$
对于连续型随机变量 $x$($x$ 对应的概率密度函数为 $f(x)$),在下式收敛的前提下,其相对于值 $k$ 的 $n$ 阶矩为:
$$
\textcolor{lightgreen}{
\Xi_{n} = \int_{-\infty}^{\infty} \textcolor{violet}{ (x – k)^{n} \cdot f(x) } \mathrm{~d} x
} \tag{2}
$$
根据数学期望的定义式以及上面的 $(1)$, $(2)$ 两式可知,随机变量 $x_{i}$ 或者 $x$ 相对于常数 $k$ 的 $n$ 阶矩,其实就是 $\left( x_{i} – k \right)^{n}$ 的数学期望,或者 $\left( x – k \right)^{n}$ 的数学期望,即:
$$
\begin{aligned}
\xi_{n} = \sum_{i=1}^{\infty} \textcolor{orange}{ \left( x_{i} – k \right)^{n} } \cdot p \left( x_{i} \right) & = E \left[ \textcolor{orange}{ \left( x_{i} – k \right)^{n} } \right] \\ \\
\Xi_{n} = \int_{-\infty}^{\infty} \textcolor{orange}{ (x – k)^{n} } \cdot f(x) \mathrm{~d} x & = E \left[ \textcolor{orange}{\left( x – k \right)^{n} } \right]
\end{aligned}
$$
特 别 地 ,若 $E(X)$ 为随机变量 $x_{i}$ 或者 $x$ 的数学期望,则:
当 $k = 0$ 时,$\xi_{n}$ 和 $\Xi_{n}$ 称为原点矩;
当 $k = E(X)$ 时,$\xi_{n}$ 和 $\Xi_{n}$ 称为中心矩。
当 $k = 0$ 且 $n = 1$ 时,$\xi_{n}$ 和 $\Xi_{n}$ 称为数学期望(即“一阶原点矩”)。此时:
$$
\begin{aligned}
\xi_{n} & = E(X) = \sum_{i = 1}^{\infty} x_{i} \cdot p(x_{i}) \\ \\
\Xi_{n} & = E(X) = \int_{- \infty}^{+ \infty} x \cdot f(x) \mathrm{~d} x
\end{aligned}
$$
当 $k = E(X)$ 且 $n = 2$ 时,$\xi_{n}$ 和 $\Xi_{n}$ 称为方差(即“二阶中心矩”)。此时:
$$
\begin{aligned}
\xi_{n} & = \mathrm{Var}(X) = \sum_{i = 1}^{\infty} \left[ x_{i} – E(X) \right]^{2} \cdot p(x_{i}) \\ \\
\Xi_{n} & = \mathrm{Var}(X) = \int_{- \infty}^{+ \infty} \left[ x – E(X) \right]^{2} \cdot f(x) \mathrm{~d} x
\end{aligned}
$$
Note
关于为什么“当 $k = E(X)$ 时,$\xi_{n}$ 和 $\Xi_{n}$ 称为中心矩”,我们可以理解为数学期望 $E(X)$ 通常位于随机变量分布的中间位置,例如正态分布中的数学期望。具体内容可以查阅「荒原之梦考研数学」的《一次性看懂期望和均值的联系与区别》这篇文章。
zhaokaifeng.com
进行矩估计时要用哪些“矩”?
根据方程组和未知数的关系,如果我们要求解 $1$ 个未知参数,至少需要 $1$ 个方程,如果要求解 $2$ 个未知参数,则至少需要 $2$ 个方程,以此类推可知,如果要求解 $n$ 个未知参数,则至少需要 $n$ 个方程。
那么,接下来的问题就是,我们该用什么“矩”来构造上面所说的方程呢?
首先,在用“矩”构造方程的时候,需要遵循以下两个原则:
- 能用原点矩,就不要用中心矩——因为原点矩更简单;
- 能用低阶矩,就不要用高阶矩——因为低阶矩更简单。
因此,当有 $1$ 未知参数的时候,就要用一阶原点矩(当然,这里不用一阶中心矩的另一个原因是,一阶中心矩 $E \left[ X – E(X) \right]$ $\equiv$ $0$, 因此一阶中心矩无法提供有关未知参数的任何信息);
类似地,当有两个未知参数的时候,就要用一阶原点矩 $E(X)$ 和二阶原点矩 $\mathrm{Var} (X)$.
习题
题目
设 $x_{1}$, $x_{2}$, $\cdots$, $x_{n}$ 是来自总体 $X$ 的样本,且 $X$ 的概率密度函数如下:
$$
p (x; \theta) = \begin{cases}
\left( \theta + 1 \right) x^{\theta} , & 0 < x < 1 \\
0 , & \text{其他}
\end{cases}
$$
其中参数 $\theta > 0$ 且取值未知。试求 $\theta$ 的矩估计量 $\hat{\theta}$.
有时候,我们也把概率密度函数 $p (x; \theta)$ 写成 $f(x)$.
解析
由于本题中要求解的未知参数只有一个 $\theta$, 因此,我们可以尝试只使用一阶原点矩或者说数学期望 $E(X)$ 来求解。
因为本题中的随机变量 $x$ 是一个连续型的随机变量,所以其期望为:
$$
E(X)=\int_{-\infty}^{+\infty}x\cdot p(x; \theta) \mathrm{~d} x
$$
又因为概率密度函数为:
$$
p(x; \theta) = \begin{cases}
(\theta + 1)x^{\theta}, & 0 < x < 1 \\
0, & \text{其他}
\end{cases}
$$
Tip
当概率密度函数 $p(x; \theta)$ $=$ $0$ 的时候,说明随机变量不可能发生,此时,讨论其未知参数的估计值是没有意义的。因此,虽然上面的概率密度函数 $p(x; \theta)$ 是一个分段函数,但事实上,我们只需要关注 $p(x; \theta)$ $=$ $(\theta + 1)x^{\theta}$ 这部分即可。
zhaokaifeng.com
所以随机变量的数学期望为:
$$
\begin{aligned}
E(X) & = \int_{0}^{1} x \cdot p(x; \theta) \mathrm{~d} x \\ \\
& = \int_{0}^{1} x \cdot (\theta + 1) x^{\theta} \mathrm{~d} x \\ \\
& = (\theta + 1) \int_{0}^{1} x \cdot x^{\theta} \mathrm{~d} x \\ \\
& = (\theta + 1) \int_{0}^{1} x^{\theta + 1} \mathrm{~d} x \\ \\
& = (\theta + 1) \left[\frac{x^{\theta + 2}}{\theta + 2}\right]_{0}^{1} \\ \\
& = \frac{\theta + 1}{\theta + 2} \cdot \left( x^{\theta + 2} \right) \textcolor{orange}{ \Big|_{0}^{1} } \\ \\
& = \frac{\theta + 1}{\theta + 2} \cdot \textcolor{orange}{ 1 } \\ \\
& = \textcolor{springgreen}{ \frac{\theta + 1}{\theta + 2} }
\end{aligned}
$$
根据矩估计的原理可知,所谓“估计”,就是用样本的一阶原点矩(样本均值)去估计总体的一阶原点矩(或者说是:总体的期望 $E(X)$),即:
$$
\begin{aligned}
& \bar{x} = E(X) \\ \\
\Leftrightarrow \ & \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i} \\ \\
\Leftrightarrow \ & \bar{x} = \frac{\theta + 1}{\theta + 2}
\end{aligned}
$$
于是:
$$
\begin{aligned}
& \bar{x} = \frac{\theta + 1}{\theta + 2} \\ \\
\Rightarrow \ & \left( \theta + 2 \right) \bar{x} = \theta + 1 \\
\Rightarrow \ & \theta \bar{x} + 2 \bar{x} = \theta + 1 \\
\Rightarrow \ & \theta \bar{x} – \theta = 1 – 2 \bar{x} \\
\Rightarrow \ & \theta \left( \bar{x} – 1 \right) = 1 – 2 \bar{x} \\
\Rightarrow \ & \theta = \frac{1 – 2 \bar{x}}{\bar{x} – 1}
\end{aligned}
$$
于是,$\theta$ 的矩估计量 $\hat{\theta}$ 为:
$$
\textcolor{springgreen}{
\boldsymbol{
\hat{\theta} = \frac{1 – 2 \bar{x}}{\bar{x} – 1}
}
}
$$
或者:
$$
\textcolor{springgreen}{
\boldsymbol{
\hat{\theta} = \frac{2 \bar{x} – 1}{1 – \bar{x}}
}
}
$$
高等数学
涵盖高等数学基础概念、解题技巧等内容,图文并茂,计算过程清晰严谨。
线性代数
以独特的视角解析线性代数,让繁复的知识变得直观明了。
特别专题
通过专题的形式对数学知识结构做必要的补充,使所学知识更加连贯坚实。
让考场上没有难做的数学题!