データ解析のための統計モデリング入門をpythonでやる(2-2)-poisson分布-
【あらすじ】
ポアソン分布の性質を確認した。
最尤推定を試した。
【本文】
ポアソン分布についてみてみる。
ポアソン分布は以下の確率質量関数に従う。
ポアソン分布は離散分布であり、パラメータは平均だけである。
分散は平均と等しい。
numpyはnumpy.random.poissonでポアソン分布に従う整数の配列が作れる。
scipyはscipy.stats.poissonでポアソン分布が扱える。
{ここにpython コードを埋め込む}
ある観測データとモデルの間には尤度(あてはまりの良さ)なる統計量を定義できる。
尤度はある観測データの集合が得られたときの、各観測データが得られる確率の積である。
尤度はであらわされる。
あるパラメータの時の尤度はである。
平均のポアソン分布と観測データの集合の場合の尤度を式で表すと以下のようになる。
これだと値が小さくなりすぎて使いにくいので対数を取った対数尤度を使う。
この対数尤度が最大となるが最もあてはまりの良いモデルとなる。
対数尤度が最大となるを求めるには微分して傾きゼロの値を求めればよいので
これがゼロの時は
となり、ポアソン分布においては標本平均と等しくなる。
このようにしてパラメータを決める手法を最尤推定という。