二次型全面深度解析

一、前言

在本文中，「荒原之梦考研数学」将对什么是二次型、二次型的本质、二次型与实对称矩阵之间的关系、常用的化二次型为标准型的方法等，做一个全面且深度的解析，帮助同学们更加深入地理解考研线性代数中的二次型.

二、正文

§2.1 什么是二次型？

如果一个 $n$ 元多项式的最高次幂是 $2$ 次，那么，这个多项式就是一个“二次型”.

二次型一般记作：

$$
f(\boldsymbol{x}_{1}, \dots, \boldsymbol{x}_{n}) = \sum_{i,j=1}^{n} a_{ij} \boldsymbol{x}_{i} \boldsymbol{x}_{j}
$$

由于二次型就是 $\boldsymbol{x}_{i}$ 和 $\boldsymbol{x}_{j}$ 以及一个系数，这三者相乘，因此，根据向量和矩阵的乘法运算规则，我们可以将变量分别放在行向量 $\boldsymbol{x}^{\top}$ 和列向量 $x$ 中，将系数放在矩阵 $\boldsymbol{A}$ 中，就可以用下面的式子表示一个二次型：

$$
f(x)=\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}
$$

例如，对于下面的二次型：

$$
f(\boldsymbol{x}_{1},\boldsymbol{x}_{2})=\boldsymbol{x}_{1}^{2}+4\boldsymbol{x}_{1}\boldsymbol{x}_{2}+5\boldsymbol{x}_{2}^{2}
$$

可以表示为：

$$
\begin{aligned}
f(x) & = \begin{pmatrix}\boldsymbol{x}_{1}, \boldsymbol{x}_{2} \end{pmatrix}
\begin{pmatrix}1 & 2 \\ 2 & 5 \end{pmatrix}
\begin{pmatrix}\boldsymbol{x}_{1} \\ \boldsymbol{x}_{2}\end{pmatrix} \\ \\
& = \begin{pmatrix}
\boldsymbol{x}_{1} + 2\boldsymbol{x}_{2}, 2\boldsymbol{x}_{1} + 5\boldsymbol{x}_{2}
\end{pmatrix} \begin{pmatrix}
\boldsymbol{x}_{1} \\
\boldsymbol{x}_{2}
\end{pmatrix} \\ \\
& = \boldsymbol{x}_{1} \left( \boldsymbol{x}_{1} + 2\boldsymbol{x}_{2} \right) + \boldsymbol{x}_{2} \left( 2\boldsymbol{x}_{1} + 5\boldsymbol{x}_{2} \right) \\ \\
& = \boldsymbol{x}_{1}^{2}+4\boldsymbol{x}_{1}\boldsymbol{x}_{2}+5\boldsymbol{x}_{2}^{2}
\end{aligned}
$$

§2.2 只有对称矩阵有二次型吗？

根据前面的分析，我们知道，任何一个方阵 $\boldsymbol{A}$ 都可以通过下面的表达式写成一个二次型：

$$
\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}
$$

但是，神奇之处在于，上面这个二次型本质上只由矩阵 $\boldsymbol{A}$ 的“对称部分”决定，这也就导致我们研究在二次型的时候，通常研究的都是对称矩阵，甚至是实对称矩阵.

上面说的“对称部分”实际上指的就是“对称矩阵”，但这是为什么呢？

首先，对于任意的矩阵 $\boldsymbol{A}$, 我们都可以做下面的分解，将其分解成矩阵 $\frac{\boldsymbol{A} + \boldsymbol{A}^{\top}}{2}$ 和矩阵 $\frac{\boldsymbol{A} – \boldsymbol{A}^{\top}}{2}$:

$$
\boldsymbol{A} = \frac{2 \boldsymbol{A}}{2} = \frac{\boldsymbol{A} + \boldsymbol{A}^{\top}}{2} + \frac{\boldsymbol{A} – \boldsymbol{A}^{\top}}{2}
$$

于是：

$$
\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x} = \boldsymbol{x}^{\top}\frac{\boldsymbol{A} + \boldsymbol{A}^{\top}}{2} \boldsymbol{x} + \boldsymbol{x}^{\top}\frac{\boldsymbol{A} – \boldsymbol{A}^{\top}}{2} \boldsymbol{x}
$$

接着，根据《为什么任意一个矩阵都可以写成一个对称矩阵和一个斜对称矩阵之和？》这篇讲义可知 $\dfrac{A+A^{\top}}{2}$ 是对称矩阵，$\dfrac{A-A^{\top}}{2}$ 是斜对称矩阵.

又根据斜对称矩阵和转置运算的性质可知，如果矩阵 $\boldsymbol{B}$ 是一个斜对称矩阵，则：

$$
\boldsymbol{B}^{\top} = -\boldsymbol{B}
$$

同时，由于 $\boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x}$ 是一个 $1 \times 1$ 阶的数字，其转置仍等于其本身，即：

$$
\left( \boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x} \right)^{\top} = \boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x}
$$

于是，对任意的实列向量 $\boldsymbol{x}$, 根据转置运算法则，有：

$$
\begin{aligned}
\left( \boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x} \right)^{\top} & = \boldsymbol{x}^{\top} \boldsymbol{B}^{\top} \boldsymbol{x} \\ \\
& = \boldsymbol{x}^{\top} \left( – \boldsymbol{B} \right) \boldsymbol{x} \\ \\
& = – \left( \boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x} \right)
\end{aligned}
$$

要使 $\boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x} = – \left( \boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x} \right)$ 成立，必须有：

$$
\boldsymbol{x}^{\top} \boldsymbol{B} \boldsymbol{x} = 0
$$

因此：

$$
\begin{aligned}
\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x} & = \boldsymbol{x}^{\top}\frac{\boldsymbol{A} + \boldsymbol{A}^{\top}}{2} \boldsymbol{x} + \boldsymbol{x}^{\top}\frac{\boldsymbol{A} – \boldsymbol{A}^{\top}}{2} \boldsymbol{x} \\ \\
& = \boldsymbol{x}^{\top}\frac{\boldsymbol{A} + \boldsymbol{A}^{\top}}{2} \boldsymbol{x} + 0 \\ \\
& = \boldsymbol{x}^{\top}\frac{\boldsymbol{A} + \boldsymbol{A}^{\top}}{2} \boldsymbol{x}
\end{aligned}
$$

综上可知，虽然任意的矩阵 $\boldsymbol{A}$ 都有对应的二次型，但是，这个二次型事实上只跟其对称部分（对应的对称矩阵）$\dfrac{\boldsymbol{A} + \boldsymbol{A}^{\top}}{2}$ 有关. 因此，二次型与对称矩阵才是真正的一一对应关系.

§2.3 为什么要将二次型化为标准型？

前面所说的二次型里可能存在不能合并成 $2$ 次幂的交叉项，比如 $\boldsymbol{x}_{1}\boldsymbol{x}_{2}$、$\boldsymbol{x}_{1}\boldsymbol{x}_{3}$ 这些，从形式上看上去比较乱，要从这么乱的形式中定义和寻找规律也会比较复杂.

所以，我们就想，如果所有的二次型都可以写成下面的样子该多好：

$$
a_{1} \boldsymbol{x}_{1}^{2} + a_{2} \boldsymbol{x}_{2}^{2} + \cdots + a_{n} \boldsymbol{x}_{n}^{2} \tag{1}
$$

但是，并不是所有的二次型都长上面的样子，如果要将一个看上去比较“凌乱”的二次型转为上面这样比较“标准”的样子，那就只能改变矩阵 $\boldsymbol{A}$ 的表达形式.

事实上，对于上面的式子 $(1)$, 根据向量和矩阵乘法运算的规则可知，如果要使下面的式子成立，那么，矩阵 $\boldsymbol{B}$ 必须是一个对角矩阵，而二次型的系数 $a_{1}, a_{2}, \cdots, a_{n}$ 就是对角矩阵主对角线上的元素：

$$
\boldsymbol{x}^{\top} \boldsymbol{B} x = a_{1} \boldsymbol{x}_{1}^{2} + a_{2} \boldsymbol{x}_{2}^{2} + \cdots + a_{n} \boldsymbol{x}_{n}^{2}
$$

所以，将一个一般的二次型化为标准的二次型的过程，本质上就是按照一定的变换规则，将原来的二次型 $\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}$ 中的矩阵 $\boldsymbol{A}$ 变成一个对角矩阵的过程，当然，在这个过程中，行向量 $\boldsymbol{x}^{\top}$ 和列向量 $x$ 也会发生变化——

注意，上面之所以要强调“一定的变化规则”，而不是“任意的变换规则”，是因为，我们必须确保变换之后的式子中，矩阵的左侧是形如 $\boldsymbol{x}^{\top}$ 这样的行向量，矩阵的右侧是形如 $\boldsymbol{x}$ 这样的列向量，因为，只有确保变换之后的式子仍然是形如 $\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}$ 这样的形式，才能确保这仍然是一个二次型.

在化二次型为标准型的时候，我们所需要遵循的“一定的变化规则”通常指的是下面这三种：

配方法；
合同变换；
正交变换.

事实上，上面的“合同变换”和“正交变换”都可以理解为用于二次型的一种“换元法”，就像我们在积分、求导等时候用到的换元法一样，本质上都是想通过一定的变换，将一个式子转换成另一个更加符合我们需求（一般是更加简单）的式子.

下面，「荒原之梦考研数学」就针对上面这三种变换，逐一进行讲解：

§2.4 基于配方法化二次型为标准型

基于配方法将一个二次型化为标准型有多种方法，在考研数学中，常用的化二次型为标准型的配方法有拉格朗日配方法和蒲和平偏导数法.

配方法的特点是操作比较直接，非常适合用于将较简单的二次型化为标准型，从而快速判断标准型系数的正负号（配方法得到的标准型与其他方法得到的标准型一样，都不会改变二次型的正负惯性指数）

本质上看，这里所说的配方法并没有使用换元的思想，与接下来基于换元思想的“合同变换”和“正交变换”方法不同.

§2.5 基于合同变换化二次型为标准型

首先，我们要知道什么是合同变换：若存在可逆矩阵 $\boldsymbol{C}$, 使得下式成立，则矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 合同：

$$
\boldsymbol{B} = \boldsymbol{C}^{\top} \boldsymbol{A} \boldsymbol{C}
$$

而通过 $\boldsymbol{C}^{\top} \boldsymbol{A} \boldsymbol{C}$ 这个变换，将矩阵 $\boldsymbol{A}$ 变成矩阵 $\boldsymbol{B}$ 的过程，就被称为“合同变换”.

于是，如果存在可逆矩阵 $C$，使：

$$
\boldsymbol{C}^{\top} \boldsymbol{A} \boldsymbol{C} = \boldsymbol{\Lambda}
$$

其中 $\boldsymbol{\Lambda}$ 是对角矩阵，且矩阵 $\boldsymbol{A}$ 与矩阵 $\boldsymbol{\Lambda}$ 合同. 而矩阵 $\boldsymbol{C}$ 并不唯一，如果要找出一个合适的矩阵 $\boldsymbol{C}$, 一个比较合适的方法是通过前面介绍的配方法寻找.

因此，通过做 $\boldsymbol{x} = \boldsymbol{C} \boldsymbol{y}$ 的换元操作，把矩阵 $\boldsymbol{A}$ 的一般二次型，经过上面的变换，就可以得到矩阵 $\boldsymbol{A}$ 的合同标准型，对角矩阵 $\boldsymbol{\Lambda}$ 主对角线上的元素就是合同标准型的系数.

事实上，通过合同变换将一个二次型化为标准型的过程是非常自然的，这是因为合同变换和二次型都同样只用到了转置操作.

例如，对二次型做 $\boldsymbol{x} = \boldsymbol{C} \boldsymbol{y}$ 的换元操作，得：

$$
\boldsymbol{x}^{\top}Ax=(Cy)^{\top}A(Cy)=y^{\top}C^{\top}ACy
$$

根据 Sylvester 惯性定理，在进行合同变换前后，矩阵的秩不会发生变化，二次型的正惯性指数（为正数的系数的个数）、负惯性指数（为负数的系数的个数）和零惯性指数（为零的系数的个数）都不会发生改变.

但是，合同变换一般不保持矩阵的特征值，也就是说，合同对角化得到的对角矩阵的主对角线上的元素一般不是原矩阵的特征值.

§2.6 基于正交变换化二次型为标准型

若矩阵 $\boldsymbol{Q}$ 满足下面的式子，则矩阵 $\boldsymbol{Q}$ 就是一个正交矩阵：

$$
\boldsymbol{Q}^{\top} \boldsymbol{Q} = \boldsymbol{E}
$$

其中，$\boldsymbol{E}$ 为单位矩阵.

又因为：

$$
\boldsymbol{Q}^{-1} \boldsymbol{Q} = \boldsymbol{E}
$$

所以：

$$
\boldsymbol{Q}^{-1} = \boldsymbol{Q}^{\top}
$$

由上面的推导可知，正交变换化一般二次型为标准型本质上仍然使用的是合同变换，只不过刚好有 $\boldsymbol{Q}^{-1} = \boldsymbol{Q}^{\top}$, 所以，我们称此为正交变换.

因此，对于一个实对称矩阵 $\boldsymbol{A}$，如果存在正交矩阵 $\boldsymbol{Q}$, 使得下式成立：

$$
\boldsymbol{Q}^{\top} \boldsymbol{A} \boldsymbol{Q} = \boldsymbol{\Lambda}
$$

其中 $\boldsymbol{\Lambda}$ 是对角矩阵，其主对角线上的元素是矩阵 $\boldsymbol{A}$ 的特征值.

那么，$\boldsymbol{Q}^{\top} \boldsymbol{A} \boldsymbol{Q}$ 就是矩阵 $\boldsymbol{A}$ 的正交对角化.

如果矩阵 $\boldsymbol{A}$ 对应的二次型是 $f \left( \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{n} \right) = \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}$, 则通过令 $\boldsymbol{x} = \boldsymbol{Q} \boldsymbol{y}$, 就可以通过正交变换的方式，将二次型 $f \left( \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{n} \right)$ 转化为下面的二次型的正交标准型：

$$
g \left( \boldsymbol{y}_{1}, \cdots, \boldsymbol{y}_{n} \right) = \lambda_{1} \boldsymbol{y}_{1} + \lambda_{2} \boldsymbol{y}_{2} + \cdots + \lambda_{n} \boldsymbol{y}_{n}
$$

其中，$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}$ 是矩阵 $\boldsymbol{A}$ 的特征值，矩阵 $\boldsymbol{Q}$ 事实上由与特征值 $\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}$ 对应的 $n$ 个线性无关的特征向量 $\boldsymbol{\alpha}_{1}, \boldsymbol{\alpha}_{2}, \cdots, \boldsymbol{\alpha}_{n}$ 组成.

通过正交变换将一般的二次型转化为标准型的特点在于，由于 $\boldsymbol{Q}^{-1} = \boldsymbol{Q}^{\top}$, 所以这既是一个合同变换（因此一定可以做二次型的换元），又是一个相似变换（因此一定可以保持特征值不变）.