多维正态分布中的边际分布、条件分布及Bayes公式

这个是概率论的一个期末小论文,大概删掉了开头结尾一些废话放在这里。

这篇文章主要是想要证明几个关于多维正态分布的很有用的定理,一是已知一个多维正态分布的联合分布,求边际分布以及条件分布的公式。二是已知一个条件分布和先验分布求后验分布的Bayes公式。这几个公式在进行统计的时候会比较有用。

预警:下面会有大量的公式,如果有公式恐惧症的话看每一节开头的结论就好了。

预备定理

分块矩阵的求逆

首先考虑两个在之后十分有用的定理

设非奇异分块矩阵 S = \begin{pmatrix} A & B \\ C & D \end{pmatrix},其中D是非奇异矩阵。则其逆矩阵可以表示如下

\newcommand{\bmu}{\boldsymbol{\mu}}
\newcommand{\bSigma}{\boldsymbol{\Sigma}}
\newcommand{\bA}{\boldsymbol{\rm A}}
\newcommand{\bB}{\boldsymbol{\rm B}}
\newcommand{\bC}{\boldsymbol{\rm C}}
\newcommand{\half}{\frac{1}{2}}
\newcommand{\quadform}[2]{#1^T#2#1}
\newcommand{\norm}[2]{N(#1,#2)}
\newcommand{\vx}{\mathbf{x}}
\newcommand{\vt}{\mathbf{t}}
\newcommand{\vz}{\mathbf{z}}
\newcommand{\vy}{\mathbf{y}}
\newcommand{\vm}{\mathbf{m}}
\newcommand{\vn}{\mathbf{n}}
\newcommand{\vb}{\mathbf{b}}
\newcommand{\RE}[1]{\mathbb{R}^{#1}}
\newcommand{\bigexp}[1]{\exp \left \{ #1 \right \}}
\newcommand{\dvec}[1]{\begin{pmatrix}#1_1 \\ #1_2\end{pmatrix}}
\newcommand{\dmat}[1]{\begin{pmatrix}#1_{11} & #1_{12} \\ #1_{21} & #1_{22}\end{pmatrix}}
S^{-1} = \begin{pmatrix}
M & -MBD^{-1} \\
-D^{-1}CM & D^{-1} + D^{-1}CMBD^{-1}
\end{pmatrix}

其中 M^{-1} = A-BD^{-1}C.

证明:对矩阵S进行初等变换

 \begin{aligned}
&
\left(\begin{array}{c|c}
S & I_{n+m}
\end{array}\right) \\
\rightarrow&
\left(\begin{array}{cc|cc}
M^{-1} & 0 & I_n & -BD^{-1} \\
C & D & 0 & I_m
\end{array}\right) \\
\rightarrow&
\left(\begin{array}{cc|cc}
I_n & 0 & M & -MBD^{-1} \\
0 & I_m & -D^{-1}CM & D^{-1} + D^{-1}CMBD^{-1}
\end{array}\right)
\end{aligned}

正态分布的特征

如果n维随机变量X的密度函数p满足

 \ln p(\vx) = - \half \quadform{\vx}{\bB} + \vt^T\vx + C

其中C是一个与\vx无关的常数,\bB是一个实对称正定矩阵. 那么X \sim \norm{\bB^{-1}\vt}{\bB^{-1}}.

证明:可以将p(\vx)表示如下

 \begin{aligned}
p(\vx)
&= C_0\bigexp{-\half\quadform{\vx}{\bB} + \vt^T\vx} \\
&= C_1\bigexp{-\half\quadform{(\vx - \bB^{-1}\vt)}{\bB}} \\
\end{aligned}

其中C_0=e^C,~C_1=e^{-\frac{1}{2}\quadform{\vt}{\bB^{-T}}}.

由于p本身为密度函数,再根据其形式可以知道X \sim \norm{\bB^{-1}\vt}{\bB^{-1}}.

正态分布的边际分布和条件分布

n+m维随机向量X=(X_1, X_2, \cdots, X_{n+m})服从正态分布X \sim \norm{\bmu}{\bSigma}.

它的联合密度函数是

 p(\vx) = \frac{1}{\sqrt{(2\pi)^{n+m}|\bSigma|}}
\bigexp{-\half \quadform{(\vx - \bmu)}{\bSigma^{-1}}}

其中 \vx = (x_1, x_2, \cdots, x_{n+m})^T,记

 \begin{aligned}
\vx_1 &= (x_1, \cdots, x_n)^T \\
\vx_2 &= (x_{n+1}, \cdots, x_{n+m})^T
\end{aligned}

同时,将\bmu也分成\RE n\RE m中的向量

 \bmu = \dvec \bmu

再将 \bSigma 以及 \bB=\bSigma^{-1} 进行分块

 \bSigma = \dmat \bSigma, ~\bB = \dmat \bB

那么对于随机向量

 \begin{aligned}
X_a &= (X_1, \cdots, X_n) \\
X_b &= (X_{n+1}, \cdots, X_{n+m}) \\
\end{aligned}

满足

 \begin{aligned}
X_a &\sim \norm{\bmu_1}{\bSigma_{11}} \\
X_b &\sim \norm{\bmu_2}{\bSigma_{22}} \\
X_a | X_b &\sim \norm{\bmu_1 - \bB_{11}^{-1}\bB_{12}(\vx_2-\bmu_2)}{\bB_{11}^{-1}}
\end{aligned}

边际密度函数

首先按照定理1.1就可以得到

\begin{equation}\label{inv-form} \begin{aligned} \bB_{11}^{-1} &= \bSigma_{11} - \bSigma_{12}\bSigma_{22}^{-1}\bSigma_{21} \\ \bB_{12}^{-1} &= \bSigma_{21} - \bSigma_{22}\bSigma_{12}^{-1}\bSigma_{11} \end{aligned} \end{equation}

现在计算将\vx_2边际化后的边际密度函数

\begin{equation} \label{margin-x1} p(\vx_1) = \int_{\RE m} p(\vx_1, \vx_2) d\vx_2 \end{equation}

首先 X 的密度函数可以表示如下

 \begin{aligned}
\ln p(\vx_1, \vx_2)
&= -\half \quadform{(\vx - \bmu)}{\bB^{-1}} + C \\
&= -\half \quadform{
\begin{pmatrix}
\vx_1 - \bmu_1 \\
\vx_2 - \bmu_2
\end{pmatrix}
}{\dmat \bB} + C \\
&= -\half \quadform{\vx_2}{\bB_{22}} + \vm_2^T\vx_2
-\half \quadform{\vx_1}{\bB_{11}} + \vm_1^T\vx_1
+ C^\prime
\end{aligned}

其中 C, C^\prime 都是和\vx无关的常数,并且

\begin{aligned}
\vm_1 &= \bB_{11}\bmu_1 + \bB_{12}\bmu_2 \\
\vm_2 &= \bB_{22}\bmu_2 - \bB_{21}(\vx_1-\bmu_1)
\end{aligned}

这样 (\ref{margin-x1}) 就可以表示为

\begin{aligned}
p(\vx_1)
&= \int_{\RE m} p(\vx_1, \vx_2)d\vx_2 \\
&= C_0\bigexp{-\half \quadform{\vx_1}{\bB_{11}} + \vm_1^T\vx_1 + \half\quadform{\vm_2}{\bB_{22}^{-1}}}
\int_{\RE m} g(\vx_2)d\vx_2 \\
&= C_1\bigexp{-\half \quadform{\vx_1}{\bSigma_{11}} + \bmu_1^T\bSigma_{11}\vx_1}
\int_{\RE m} g(\vx_2)d\vx_2 \\
\end{aligned}

在这里g(\vx_2)实际上可以当作是没有正则化的正态分布函数

 g(\vx_2) = \bigexp{-\half \quadform{(\vx_2-\bB_{22}^{-1}\vm_2)}{\bB_{22}}}

而它的积分只和协方差矩阵相关,也就是与\vx_1无关,这样p(\vx_1)可以继续化简为

 p(\vx_1) = C_2\bigexp{-\half \quadform{\vx_1}{\bSigma_{11}^{-1}} + (\bSigma_{11}^{-1}\bmu_1)^T\vx_1}

再次根据定理1.2可以知道随机向量X_a服从正态分布,并且

 X_a \sim \norm{\bmu_1}{\bSigma_{11}}

类似可以得到随机向量X_b也服从正态分布

 X_b \sim \norm{\bmu_2}{\bSigma_{22}}

条件密度函数

接下来计算条件密度函数

\begin{equation} \label{cond-x1} p(\vx_1 \mid \vx_2) = \frac{p(\vx_1, \vx_2)}{p(\vx_2)} \end{equation}

根据前一节的讨论,可以得到

 \begin{aligned}
\ln p(\vx_1 \mid \vx_2)
&= \ln p(\vx_1, \vx_2) - \ln p(\vx_2) \\
&= -\half \quadform{(\vx - \bmu)}{\bSigma} + C_1(\vx_2) \\
&= -\half \quadform{\vx_1}{\bB_{11}} + \vm^T\vx_1 + C_2(\vx_2)
\end{aligned}

在这里 \vm = \bB_{11}\bmu_1 - \bB_{12}(\vx_2-\bmu_2),并且 C_1, C_2 都是只依赖于 \vx_2 的函数。那么再利用定理1.2就可以得到

 \begin{aligned}
X_a \mid X_b &\sim \norm{\bB_{11}^{-1}\vm}{\bB_{11}^{-1}} \\
&\sim \norm{\bmu_1 - \bB_{11}^{-1}\bB_{12}(\vx_2-\bmu_2)}{\bB_{11}^{-1}}
\end{aligned}

正态分布中的Bayes公式

已知随机向量

 \begin{aligned}
X_a &= (X_1, \cdots, X_n) \\
X_b &= (X_{n+1}, \cdots, X_{n+m}) \\
X &= (X_1, \cdots, X_{n+m})
\end{aligned}

满足

 \begin{aligned}
X_a | X_b &\sim \norm{\bA\vx_b + \vb}{\bSigma_1} \\
X_b &\sim \norm{\bmu}{\bSigma_2}
\end{aligned}

那么它们的联合分布是正态分布,并且有

 X \sim \norm{\vm}{\bSigma}

其中

 \begin{aligned}
\vm &= \begin{pmatrix}
\bA\bmu + \vb \\
\bmu
\end{pmatrix}\\
\bSigma &=
\begin{pmatrix}
\bSigma_1 + \bA\bSigma_2\bA^T & \bA\bSigma_2\\
\bSigma_2\bA^T & \bSigma_2
\end{pmatrix} \\
\end{aligned}

同时,还有

 \begin{aligned}
X_a &\sim \norm{\bA\bmu+\vb}{\bSigma_1 + \bA\bSigma_2\bA^T} \\
X_b | X_a &\sim \norm{\bB^{-1}(\bSigma_2^{-1}\bmu+\bA^T\bSigma_1^{-1}(\vx_1-\vb))}{\bB^{-1}}
\end{aligned}

其中 \bB = \bSigma_1+\bA\bSigma_2\bA^T.

证明

首先根据乘法公式可以得到

 p(\vx_1, \vx_2) = p(\vx_1 \mid \vx_2)p(\vx_2)

之后取对数之后可以有

 \begin{aligned}
& \ln p(\vx_1, \vx_2) \\
=& \ln p(\vx_1 \mid \vx_2) + \ln p(\vx_2) \\
=& -\half \quadform{(\vx_1 - \bA\vx_2 - \vb)}{\bSigma_1^{-1}} \\
& - \half \quadform{(\vx_2 - \bmu)}{\bSigma_2^{-1}} +C\\
=& -\half \quadform{\vx}{\bB} + \vm^T\vx + C^\prime
\end{aligned}

其中 \vm\bB 定义如下

 \begin{aligned}
\bB &= \begin{pmatrix}
\bSigma_1^{-1} & -\bSigma_1^{-1}\bA \\
-\bA^T\bSigma_1^{-1} & \bSigma_2^{-1} + \quadform{\bA}{\bSigma_1^{-1}}
\end{pmatrix} \\
\vm &= \begin{pmatrix}
\bSigma_1^{-1}\vb \\
\bSigma_2^{-1}\bmu-\bA^T\bSigma_1^{-1}\vb
\end{pmatrix}
\end{aligned}

这样再根据定理1.2就可以得到

 X \sim \norm{\bB^{-1}\vm}{\bB^{-1}}

可以根据定理1.1计算得到

 \bSigma := \text{cov}(X) = \bB^{-1} =
\begin{pmatrix}
\bSigma_1 + \bA\bSigma_2\bA^T & \bA\bSigma_2\\
\bSigma_2\bA^T & \bSigma_2
\end{pmatrix}

X_aX_b\mid X_a的分布可以直接计算得出。

Miskcoo's Space,版权所有丨如未注明,均为原创
转载请注明转自:http://blog.miskcoo.com/2017/06/some-formula-of-multivariate-normal

miskcoo

顺利从福州一中毕业!感觉大学周围都是聚聚十分可怕QAQ 想要联系的话欢迎发邮件:miskcoo [at] gmail [dot] com

Leave a Reply

Your email address will not be published. Required fields are marked *

NOTE: If you want to add mathematical formulas, use $$ to wrap them. For example, use $$x_0$$ to get $$x_0$$.

If you want to get a newline, hit Enter twice, that is, use double newlines to get a newline.