线性代数-半正定与正定矩阵


基本定义

正定矩阵:一个 n×n 的实对称矩阵 \(A\),如果对于任何非零向量 \(x \in \mathbb{R}^n\),都满足:\(x^TAx > 0\),则称 \(A\) 为正定矩阵。

半正定矩阵:一个 n×n 的实对称矩阵 \(A\),如果对于任何向量 \(x \in \mathbb{R}^n\),都满足:\(x^TAx \geq 0\),则称 \(A\) 为半正定矩阵。

例1

单位矩阵 \(I \in \mathbb{R}^{2 \times 2}\) 是否是正定矩阵?

解:设向量 \(\boldsymbol{x} = \begin{bmatrix}x_1\\x_2\end{bmatrix} \in \mathbb{R}^2\) 为非零向量,则 \[ \boldsymbol{x}^T I\boldsymbol{x} = \boldsymbol{x}^T\boldsymbol{x} = x_1^2 + x_2^2 \] 由于 \(\boldsymbol{x} \neq \boldsymbol{0}\),故 \(\boldsymbol{x}^T I\boldsymbol{x} > 0\) 恒成立,即单位矩阵 \(I \in \mathbb{R}^{2 \times 2}\) 是正定矩阵。

单位矩阵是正定矩阵 (positive definite)。

简单证明

对于任意单位矩阵 \(I \in \mathbb{R}^{n \times n}\) 而言,给定任意非零向量 \(\boldsymbol{x} \in \mathbb{R}^n\),恒有 $$ \begin{align*} \boldsymbol{x}^T I\boldsymbol{x} &= \boldsymbol{x}^T\boldsymbol{x}\\ &= x_1^2 + x_2^2 + \cdots + x_n^2 > 0 \end{align*} $$ ### 例2 实对称矩阵 \(A = \begin{bmatrix}2&-1&0\\-1&2&-1\\0&-1&2\end{bmatrix} \in \mathbb{R}^{3 \times 3}\) 是否是正定矩阵?

解:设向量 \(\boldsymbol{x} = \begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix} \in \mathbb{R}^3\) 为非零向量,则 $$ \begin{align*} \boldsymbol{x}^T A\boldsymbol{x} &= \begin{bmatrix}(2x_1 - x_2)&(-x_1 + 2x_2 - x_3)&-x_2 + 2x_3\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}\\ &= x_1^2 + (x_1 - x_2)^2 + (x_2 - x_3)^2 + x_3^2 > 0 \end{align*} $$ 因此,矩阵 \(A\) 是正定矩阵。

结合二次函数的解释

在初中我们学过二次函数,形如 \(f(x) = ax^2\),该函数的曲线会经过坐标原点,且开口向上,所有的函数值都大于等于0。

实际上,我们可以将 \(y=x^TAx\) 看作是二次函数 \(f(x) = ax^2\) 的多维推广。

因此,如果希望 \(y=x^TAx\) 对所有向量 \(x\) 都大于等于0,则需要 \(A\) 为半正定矩阵。

另外在\(y=ax^2\)中,若\(a>0\),则对于任意\(x!=0\),有\(y>0\)恒成立。

同样,如果希望 \(y=x^TAx\) 对所有非零向量 \(x\) 都大于0,则需要 \(A\) 为正定矩阵。

直观解释

若给定任意一个正定矩阵\(A\in \mathbb{R}^{n\times n}\) 和一个非零向量\(x\in \mathbb{R}^n\),则两者相乘得到的向量\(y=Ax \in \mathbb{R}^n\) 与向量\(x\) 的夹角恒小于等于90度。(等价于\(x^TAx>0\)

例3

给定向量 \(\boldsymbol{x} = \begin{bmatrix}2\\1\end{bmatrix} \in \mathbb{R}^2\),对于单位矩阵 \(I = \begin{bmatrix}1&0\\0&1\end{bmatrix} \in \mathbb{R}^{2 \times 2}\),则 \[ \boldsymbol{y} = I\boldsymbol{x} = \boldsymbol{x} = \begin{bmatrix}2\\1\end{bmatrix} \] 向量 \(\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^2\) 之间的夹角为 $$ \begin{align*} \cos\langle\boldsymbol{x}, \boldsymbol{y}\rangle &= \frac{\boldsymbol{x}^T\boldsymbol{y}}{\|\boldsymbol{x}\|\cdot\|\boldsymbol{y}\|}\\ &= \frac{2\times2 + 1\times1}{\sqrt{2^2 + 1^2}\cdot\sqrt{2^2 + 1^2}}\\ &= 1 \end{align*} $$ 即两个向量之间的夹角为 \(0^{\circ}\)

例4

给定向量 \(\boldsymbol{x} = \begin{bmatrix}2\\1\\1\end{bmatrix} \in \mathbb{R}^3\),对于实对称矩阵 \(A = \begin{bmatrix}2&-1&0\\-1&2&-1\\0&-1&2\end{bmatrix} \in \mathbb{R}^{3 \times 3}\),则 \[ \boldsymbol{y} = A\boldsymbol{x} = \begin{bmatrix}0\\2\\0\end{bmatrix} \] 向量 \(\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^3\) 之间的夹角为 \[ \cos\langle\boldsymbol{x}, \boldsymbol{y}\rangle = \frac{\boldsymbol{x}^T\boldsymbol{y}}{\|\boldsymbol{x}\|\cdot\|\boldsymbol{y}\|} = \frac{\sqrt{6}}{3} \] 即两个向量之间的夹角小于 \(\frac{\pi}{2}\)

为什么协方差矩阵是半正定矩阵

在概率论与数理统计中,协方差矩阵被定义为:

对于任意多元随机变量 \(\boldsymbol{t}\),协方差矩阵为 \(C = \mathbb{E}[(\boldsymbol{t} - \overline{\boldsymbol{t}})(\boldsymbol{t} - \overline{\boldsymbol{t}})^T]\)

现给定任意一个向量 \(\boldsymbol{x}\),则 $$ \begin{align*} \boldsymbol{x}^T C\boldsymbol{x} &= \boldsymbol{x}^T\mathbb{E}[(\boldsymbol{t} - \overline{\boldsymbol{t}})(\boldsymbol{t} - \overline{\boldsymbol{t}})^T]\boldsymbol{x}\\ &= \mathbb{E}[\boldsymbol{x}^T(\boldsymbol{t} - \overline{\boldsymbol{t}})(\boldsymbol{t} - \overline{\boldsymbol{t}})^T\boldsymbol{x}]\\ &= \mathbb{E}(s^2) = \sigma_s^2 \end{align*} $$ 其中, \(\sigma_s = \boldsymbol{x}^T(\boldsymbol{t} - \overline{\boldsymbol{t}}) = (\boldsymbol{t} - \overline{\boldsymbol{t}})^T\boldsymbol{x}\)

由于 \(\sigma_s^2 \geq 0\),因此,\(\boldsymbol{x}^T C\boldsymbol{x} \geq 0\),协方差矩阵 \(C\) 是半正定的。

参考

浅谈「正定矩阵」和「半正定矩阵」


文章作者: 庞贝堡垒
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 庞贝堡垒 !
评论
  目录