マハラノビスの距離の妥当性 - 機械学習スピリッツ

はじめに
マハラノビスの距離とは
- なぜマハラノビスの距離を使うのか

はじめに

マハラノビスの距離は良く機械学習や統計でも使われています．ですが，なぜそれが使われているのか，
使って良いのかに言及がされている記事をあまり見たことがないので，今回書いてみることにしました．

マハラノビスの距離とは

Mahalanobisというインドの統計学者が開発した距離だそうです．入力を $x$ , $\hat{\mu}$ は期待値の推定量を表す．また， $\hat{\sum}$ は共分散行列の推定量である．
このとき，
$x$ と $\hat{\mu}$ とのマハラノビスの距離は $(x-\hat{\mu})^\top \hat{\sum}^{-1} (x-\hat{\mu})$ と表されます．もちろん期待値を求めるのが難しいという現実の問題での話なので， $\hat{\mu}$ という推定量ではなく,
$(x-\mu)^\top \hat{\sum}^{-1} (x-\mu)$ としてもマハラノビスの距離です.

マハラノビスの距離は， $\hat{\sum}$ によって定まる超楕円体(hyperellipsoid)上の点を等距離とみなす距離尺度です.(以下に図を示す)
f:id:whisponchan:20190628204630p:plain:w300

なぜマハラノビスの距離を使うのか

多変量正規分布を数式で書くと，
$f(x)=\frac{1}{(\sqrt{2 \pi})^{n} \sqrt{|\Sigma|}} \exp \left(-\frac{1}{2}(x-\mu)^{\mathrm{T}} \Sigma^{-1}(x-\mu)\right)$
となり， $x$ が入力ベクトル $\mu$ が平均ベクトル, $\sum$ が分散共分散行列です．

これは何かというと，分散共分散行列の逆数を固有値分解してマハラノビスの距離の式に代入すると，楕円方程式になることを意味しています。なので，多変量正規分布はマハラノビスの距離を用いているので，楕円によって確率分布を表現しているとも言えると思います．

数式で表現すると*1，まず分散共分散行列の逆数を固有値分解します．
$\lambda$ は固有ベクトル． $\mathbf{U}^{-T} \mathbf{\Lambda}^{-1} \mathbf{U}^{-1}$ はそれぞれ，正則行列の逆数，対角行列の逆数，正則行列の逆数となっています.
f:id:whisponchan:20190629044707p:plain:h50
そしてその結果をマハラノビスの距離の分散共分散行列の逆数に代入します．
f:id:whisponchan:20190629044637p:plain:h50
f:id:whisponchan:20190629044734p:plain:h50
上の右辺の2次元のときを考えると以下になっており.
これは楕円方程式に一致します．
f:id:whisponchan:20190629044754p:plain:h50

結論的には，多変量正規分布を仮定するときにマハラノビスの距離を用いている.
マハラノビスの距離を仮定するときは多変量正規分布を仮定していると言えると思います.
これはガウシアン混合モデル(GMM)にも使われているので，GMMも多変量正規分布を仮定していると言えると思います．
簡単ではありますが，以上となります.

*1:Machine Learning A Probabilistic Perspective Kevin P. Murphyの4.1.2より