多次元正規分布の条件付き期待値・分散(2) - 多変数の場合

はじめに

 以前のエントリーにて2変数正規分布の場合の条件付き分布について期待値と分散の導出を行いました。式の変形において特別な知識を要さないので、条件付き分布についての理解をまず2変数の場合で式展開を追いながらつかんでもらうのがよいかと思います。

biocv.hateblo.jp

 本記事ではより一般的な多変数の場合の条件付き分布について期待値と分散の導出を行います。途中、式の変形にてブロック行列の逆行列の知識を用います。式の展開については、以下のQiitaの投稿を参考にさせて頂きました。

qiita.com

導出

任意の次元 $n \in N$の確率変数$X$が平均:$\mu$、分散:$\Sigma$の正規分布に従うとします。 $$ \bf{X} \sim N( \bf{\mu}, \Sigma) \tag{1}
$$ この時 次元が$n_1, n_2 (0 \leq n_1 \leq, 0 \leq n_2 \leq n, n_1 + n_2 = n)$となるように確率変数$X$を式(2)のように分割することによって分散共分散行列$\Sigma$も式(3)のように分解することができます。 $$ \bf{X} = (\bf{X_1}, \bf{X_2}) \tag{2}
$$

$$ \Sigma = \begin{bmatrix} \Sigma_{11}&\Sigma_{12} \\\ {\Sigma_{12}}^T &\Sigma_{22}\end{bmatrix} \tag{3} $$

確率変数$X$の分布は多次元正規分布確率密度関数として式(4)のようにあらわされます。

$$ f(\bf{X})=\frac{1}{(2\pi)^{1/n}\sqrt{\Sigma}} e^{-\frac{1}{2}{(\bf{x}-\bf{\mu})}^T\Sigma^{-1}(\bf{x}-\bf{\mu})} \tag{4} $$

また、条件付き確率の公式により$X_1|X_2$の確率密度関数$f(\bf{x_1}|\bf{x_2})$は以下の式によって与えられます。

$$ f(\bf{x_1}|\bf{x_2})=\frac{f(\bf{x_1},\bf{x_2})}{f(\bf{x_2})} \tag{5} $$

式(2)~(4)を用いて式(5)左辺の分子の指数部分を展開します。 その際一度分散共分散行列:$\Sigma$の逆行列を$\Omega$とおいて式を変形していきます。 $$ \Omega = \Sigma^{-1} \tag{6} $$

$$ \begin{align} -\frac{1}{2}{(\bf{x}-\bf{\mu})}^T\Omega(\bf{x}-\bf{\mu})&= -\frac{1}{2} {\begin{bmatrix} (\bf{x_1}-\bf{\mu_1}) \\\ (\bf{x_2}-\bf{\mu_2}) \end{bmatrix}}^T \begin{bmatrix} \Omega_{11}&\Omega_{12} \\\ \Omega_{12} &\Omega_{22}\end{bmatrix} \begin{bmatrix} (\bf{x_1}-\bf{\mu_1}) \\\ (\bf{x_2}-\bf{\mu_2}) \end{bmatrix} \\\ &= -\frac{1}{2}{(\bf{x_1}-\bf{\mu_1})}^T \Omega_{11} (\bf{x_1}-\bf{\mu_1}) -\frac{1}{2}{(\bf{x_2}-\bf{\mu_2})}^T \Omega_{22} (\bf{x_2}-\bf{\mu_2}) - {(\bf{x_2}-\bf{\mu_2})}^T \Omega_{12} (\bf{x_1}-\bf{\mu_1}) \end{align} \tag{7} $$

よって$f(\bf{x_1}|\bf{x_2})$の指数部分は、

$$ f(\bf{x_1}|\bf{x_2})の指数部分 = -\frac{1}{2}{(\bf{x_1}-\bf{\mu_1})}^T \Omega_{11} (\bf{x_1}-\bf{\mu_1}) - {(\bf{x_1}-\bf{\mu_1})}^T \Omega_{12} (\bf{x_2}-\bf{\mu_2}) -\frac{1}{2}{(\bf{x_2}-\bf{\mu_2})}^T (\Omega_{22} - \Sigma^{-1}) (\bf{x_2}-\bf{\mu_2}) \tag{8} $$

と計算できます。

次に、式(5)の条件付き確率分布の平均と分散をそれぞれ$\mu_{1|2}$、$\Sigma_{1|2}$とおいてその場合の確率密度関数を考えます。

$$ f(\bf{X_1}|\bf{X_2})=\frac{1}{(2\pi)^{1/n_1}\sqrt{\Sigma_{1|2}}} e^{-\frac{1}{2}{(\bf{x_1}-\bf{\mu_{1|2}})}^T\Sigma_{1|2}^{-1}(\bf{x_1}-\bf{\mu_{1|2}})} \tag{9} $$

と単純に正規分布確率密度関数として表せます。 式(8)の指数部分を更に展開して、$\bf{x}$について2次と1次の項について整理します。

$$ -\frac{1}{2}{(\bf{x_1}-\bf{\mu_{1|2}})}^T\Sigma_{1|2}^{-1}(\bf{x_1}-\bf{\mu_{1|2}})=-\frac{1}{2}\bf{x_1}^T\Sigma_{1|2}^{-1}\bf{x_1} - \bf{x_1}^T\Sigma_{1|2}^{-1}\mu_{1|2} \tag{10} $$

$\bf{x}$についての恒等式とみて係数を比較するために、式(7)についても同様に展開した右辺を$\bf{x}$についての2次と1次の項に整理すると、以下の関係を得ます。

$$ \begin{align} 2次の項 &= -\frac{1}{2}\bf{x_1}^T\Omega_{11}\bf{x_1} \tag{11} \\\ 1次の項 &= \bf{x_1}^T\Omega_{11}\mu_1 -\bf{x_1}^T \Omega_{12} (\bf{x_2}-\bf{\mu_2}) \\\ &= \bf{x_1}^T (\Omega_{11}\mu_1 - \Omega_{12} (\bf{x_2}-\bf{\mu_2})) \tag{12} \end{align} $$

式(9)と式(10),(11)の1,2次の項の係数をそれぞれ比較することによって、

$$ \Sigma_{1|2}^{-1} = \Omega_{11} \tag{13} $$
$$ \Sigma_{1|2}^{-1}\mu_{1|2}=\Omega_{11}\mu_1 - \Omega_{12} (\bf{x_2}-\bf{\mu_2}) \tag{14} $$

となる。整理すると条件付き確率分布の平均:$\mu_{1|2}$と分散:$\Sigma_{1|2}$は、

$$ \Sigma_{1|2} = \Omega_{11}^{-1} \tag{15} $$ $$ \mu_{1|2}=\mu_1 - \Omega_{11}^{-1}\Omega_{12} (\bf{x_2}-\bf{\mu_2}) \tag{16} $$

となる。 この結果に$\Omega$の具体的な値を代入すれば、条件付き確率の平均と分散の式を導けます。 そこで式(3)のようにブロック分割した行列に対しての逆行列の各成分が満たす以下の関係を用います。A,B,C,Dのブロックに分割できる行列についてA,Dが正則である場合の逆行列は以下で表すことができます。

$$ \begin{bmatrix} A & B \\ C & D \\ \end{bmatrix}^{-1} = \begin{bmatrix} (A -BD^{-1}C)^{-1} & -(A-BD^{-1}C)BD^{-1} \\ -D^{-1}C(A-BD^{-1}C)^{-1} & D^{-1} + D^{-1}C(A-BD^{-1}C)BD^{-1} \\ \end{bmatrix} \tag{17} $$

この式を式(3),(6)に適用すると、

$$ \begin{align} \Omega&= \Sigma^{-1} \\\ &= \begin{bmatrix} \Sigma_{11}&\Sigma_{12} \\\ {\Sigma_{12}}^T &\Sigma_{22}\end{bmatrix}^{-1} \\\ &=\begin{bmatrix} (\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}{\Sigma_{12}}^T)^{-1} & -(\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}{\Sigma_{12}}^T)^{-1}\Sigma_{12}\Sigma_{22}^{-1} \\ -\Sigma_{22}^{-1}{\Sigma_{12}}^T(\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}{\Sigma_{12}}^T)^{-1} & \Sigma_{22}^{-1} + \Sigma_{22}^{-1}{\Sigma_{12}}^T(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}{\Sigma_{12}}^T)\Sigma_{12}\Sigma_{22}^{-1} \\ \end{bmatrix} \tag{18} \end{align} $$

となります。 よって最後に式(14),(15)に代入することによって、

$$ \begin{align} \Sigma_{1|2}&=\Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}{\Sigma_{12}}^T \tag{19} \\\ \mu_{1|2}&=\mu_1 + \Omega_{11}^{-1}\Omega_{11}\Sigma_{12} \Sigma_{22}^{-1} (\bf{x_2}-\bf{\mu_2}) \\\ &=\mu_1 + \Sigma_{12} \Sigma_{22}^{-1} (\bf{x_2}-\bf{\mu_2}) \tag{20} \end{align} $$

となり、つまり$X_2=\bf{x_2}$の実現値を得た時の条件付き確率分布:$X_1|X_2$は、

$$ X_1|X_2 \sim N(\mu_1 + \Sigma_{12} \Sigma_{22}^{-1} ({\bf x_2}-{\bf \mu_2}), \Sigma_{11} -\Sigma_{12}\Sigma_{22}^{-1}{\Sigma_{12}}^T) \tag{21} $$

であることが分かります。

まとめ

 2変数の場合に続いて、一般の多変数の場合の条件付き確率分布の期待値と分散を導出しました。幾つか導出手法はあるもののとりわけ特別なアイデアを要しないシンプルな恒等式による比較によって導出する方法について紹介をしました。途中登場したブロック行列の逆行列については最適化回りの勉強をしていると頻出の式なので今回は公式をそのまま引用しましたが、こちらについても記事として後日まとめてみたいと思います。

参考文献