特別回②:正規分布にまつわる統計学
大学時代専門であるにも関わらず、どうしてもモヤモヤっとしてた正規分布。昨日時間をかけていろいろ調べたり聞き取り調査をしてたらやっと自分が納得いくような形で理解することができたから共有します。
今回ば久々にずいぶん長い回になってしまったけど、それだけ自分によって関心のある事柄だったので良しとします。
まず正規分布の定義について
“正規分布とは何か?”
“なんで正規分布ってそんなに重要なの?”
この2つの質問を就職活動の面接とかでも聞かれたりしたけど、イマイチな回答しかできなった。そこで改めてこの質問に向き合ってみた。(案の定、どつぼにはまった)
みんなの先生Wikiさんに聞いてみるとこんな感じ
“中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことにより正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている。”
これがどうしてもひっかかって。。。
どうして正規分布は自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられているっていえるのか。
ネットで調べても、説明のない複雑な証明がただ書かれてるか自然の摂理だのなんだのしか書いてない
そんなバカなと思って格闘してたらちゃんとたどり着いた。少なくとも自分が納得する意味では。
結論からいうと、
正規分布の統計学的な性質が自然現象や社会現象を“観測する上で”あくまでも重要なのである。決して“自然現象や社会現象が正規分布になる”わけではない。むしろ因果関係が逆であって、“正規分布の統計学性質上、それが自然現象や社会現象を観測する上で大変便利な性質をもっている”ということである。
統計学をしっかりこなしている人であれば、これは当たり前かもしれないが、自分自身ががそうであったように、この一番大事な部分が見えなくなるとわけわからなくなる。
では、今後これについて詳しく噛み砕いていく。
まず核心となる正規分布の統計学的性質と有用性について触れる。
これはそもそも統計学とは?という質問に立ち返らないといけない。
統計学というのは
収集したデータからその性質や傾向を把握する記述統計学(descriptive statistics)と収集した一部分のデータからそのもとの母集団を推測する推計統計学(inferential statistics)にわかれる。現代の統計学といえば、たいていの場合は推計統計学のことを指し、記述統計学はいわば推計統計学をするにあたってのファーストステップと捉えても間違いはない。
この推計統計学はさきほども述べたように“一部分のデータからそのもとの母集団を推測する”ことである。
ではこれがどのように行われるかっていうのをほんとざっくり説明すると、
ある事象について繰り返し観測(実験)を行うと経験則的に得られる結果と確率がある。これらの結果の分布はいわばあるべき理論的な結果とのずれを示す分布となる。
つまり正規分布とはいわばある事象の観測と真の値の誤差を表す分布である。
逆にいえば、もしある事象に対して仮に“真の分布”、”真の値”というものが普遍で存在するのであれば、それがどのようなものであるかを正規分布が観測の繰り返しを通じて教えてくれるのである。
ではここで疑問に思う人がいると思うが、“なぜ、正規分布がある事象の真の値からの観測誤差を表しているのか?”
ここで登場するのが中心極限定理である。
この中心極限定理こそが“事象の観測のサンプル数を極限までに増やしていくと事象の観測された値が真の値に対して描く分布が正規分布になりますよ”と示しているのである。
この数学的証明はだるいし、正直理解するのが大変なんではしょります。それこそネットに数式だけズラズラ書いているものを参考にすれば十分。
一番初めに戻ると、この中心極限定理があってこそ、自然現象や社会現象の多くは普遍と仮定すれば、繰り返しの観測と正規分布の性質によってそれが理解できるといえるのである。
もちろん以前に紹介したブラックスワンの回でも触れたように、社会現象を普遍なものとして過去のデータから推測できることができない、正規分布を用いるとあくまでもそれがもつ確率論的な理論体系に縛られて外れ値を過小評価してしまうという反論も十分筋のとおったものであると少なくとも僕は考えている。