適合性の検定 test of goodness of fit.
もし、理論がこうなら、実験結果はこうなるはずだ!といった 検定は実験調査では必ず結果の検討時に出てくる問題ですね。
良く例で出されるのが、遺伝学の基礎となったメンデルの法則 の検証などです。(詳しいメンデルの法則にまつわる色々な
話、あるいは現在の理論等は遺伝学の参考書をご覧下さい。)
[検証例]有名なエンドウ豆の実験では、彼は次の結果を得ています。
皺無 黄色| 315個
皺無 緑色| 108個
皺有 黄色| 101個
皺有 緑色| 32個
そして、彼が提唱している理論に従えば、これらの個数の比は
9:3:3:1 である。
さて、これは実験なのですし、きちんと花粉が付かず豆ができなっかり、枯れて 育たなかった個体もあるでしょう。 実験個体数や得られた個体数がちょうど理論通りの比に誤差無く得られるとは
限りません。
そこで、誤差や、分布がある状態で理論との一致を検定する方法が必要に なります。(検定の概念や概略は既に学んでいますね!そうです、例の殺虫剤の
実験の話をしました。そして既に、帰無仮説、対立仮説、第1種の誤り、自由度 等々の言葉も紹介しています。なお、自由度dfは下記にも復習しています。)
1.検定方法
*帰無仮説 H0:理論度数と観測度数が適合している。
*対立仮説 HA:理論度数と観測度数が適合していない。
2
1)χ(カイ2乗)検定 chi-square-test
注意!(今後はべき乗を^で表示します。X^2はXの2乗です。)
step1: χo^2=Σ(Oi-Ei)^2/Ei
where Oi = observed frequency(観測度数)
where Ei = expected frequency(理論<期待>度数)
なお、階級数や観測数が少ない場合はYates' corection 等の 補正をする。
Yates' correction: χo^2=Σ(|Oi-Ei|-0.5)^2/Ei
step2: カイ2乗表(df,α)(片側)の値と上記の計算結果と比較検定
2)G(2I、対数尤度比)検定 G test
これは近年上記のカイ2乗よりも詳細は略しますが理論的な理由で
利用する人が増えてはきていますが、皆さんが目にする農業や生物関係の
論文での使用は一般的とはいえませんので、公式を紹介するに止めます。
step1: Go=2ΣOiIn(Oi/Ei)
(これにも少数階級や観測数への補正式があるが略)
step2:カイ2乗表(df,α)(片側)の値と上記の計算結果と比較検定
2.守るべき注意点
さて、公式は簡単なのですが、実は、連続を仮定した所に度数と言った非連続 の分布で判定しようと言う近似の検定なのです!従って、
1.これらの検定法は度数(数量)の検定のみに適用されます! 即ち、%などで得られたデータには適用できません。 2.ある程度の階級数(カテゴリー)、観測数が必要(5階級以上が望ましい)です! (だからこそ、少ない場合は上記のような補正式が必要になったのです。) 3.理論度数は絶対に整数に丸めず、実数で(小数点以下を含めて)計算する!
を原則として下さい。
3.検定例
上のエンドウ豆の実験に戻り、この検定をしてみましょう。
一応、階級数は十分ではないかもしれませんが、観測数が多いですので補正しない方の公式を使います。
総数315+108+101+32=556ですね。これを期待度数に9:3:3:1:の比で分けるわけです。しかも、少数点以下を含む実数で。
皺無黄色 556(9/16)=312.75 皺有黄色 556(3/16)=104.25
皺無緑色 556(3/16)=104.25 皺有緑色 556(1/16)=34.75
χo^2 = (315-312.75)^2/312.75+(108-104.25)^2/104.25
+(101-104.25)^2/104.25+(32-34.75)^2/34.75=0.470
階級数が4なので、df=4-1=3.
検定:カイ2乗表を自由度3、危険率5%で片側検定で参照すると7.81
従って、帰無仮説を棄却することはできません。(当然1%でも。)
即ち、帰無仮説を採択、理論度数と観測度数は一致する。
換言すると、実験で得られた結果は、メンデルの理論と一致していると
判断される。
どうですか?割と簡単でしょう。色々な場面で応用されています。
4.良く使用される理論分布、および分割表
1)正規分布 normal distribution
2)2項分布 binominal distribution
3)ポアソン分布 Poisson distribution
4)多項分布 multinominal distribution
5)分割表 contingency table
等があります。
(自習)これらについて参考書を読み理解し、かつカイ2乗検定の
例をそれぞれについて学ぶこと!!
敢えて宿題とはいたしませんが、試験には出す可能性があります!!!
5.自由度 degrees of freedom (df)の復習
任意の値を取りうる個数、即ち自由度=変数集団数ー制限パラメータ数。
外部仮説(データは独立な仮説、即ち、パラメータの値が理論的に決定)の場合
df = 変数集団数 - 1 ( = 階級数 - 1)
例 = (列数 - 1)(行数 - 1) … 2元分割表の場合
内部仮説(データに従属な仮説、即ちパラメータはデータからの推定値)の場合
df = 変数集団数 - 1 - 推定したパラメータ数
例 = 階級数-2 … 2項分布,ポアソン分布の場合
= 階級数-3 … 正規分布の場合
では、上記の例を、Excel等の表計算プログラムで行ってみて下さい。 なお、カイ2乗表も関数にあります。ヘルプを参照しながら、自力で検定を
実施してみて下さい。
途中の計算方法がどうしてもわからない?そしたら、パソコンのアクセサリ に付属している電卓でも可能です。そして、最後は表を参考書の付録等で参照する
ことになります。
もっと手抜きしたいなら、chitestウィザードで期待値さえ計算されて いれば、あとは全てお任せでも可能です。 (ただ、計算練習にはならないでしょう。)
練習問題:
いま、1つのさいころがあり、それを1000回ふってみたところ、
出た目は下記のようであった。
___________
1の目 201回
2 145
3 173
4 186
5 133
6 162
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
この結果から、このさいころがイカサマでないといえるか確かめよ。
[ヒント]
全ての目が同じ確率で出る場合の期待値はわかりますね。
そうそう、期待値は実数です!
正しいさいころの場合に上記の結果が出る確率を判断すれ
ばよいわけです。後は簡単ですね。