今回は統計学の目玉、統計学的仮説検定(statistical hypothesis testing)を解説します。統計学的仮説検定は統計学を学習する中で鬼門だといわれるほど、初めての人には難しいようです。しかし、統計学を理解する最良の教材なので、がんばって身につけましょう。

100%立証されない仮説も認める「統計学」

仮説検定の目的は、「母集団について仮定された仮説(数学では命題という)を標本(sample、母集団の一部分)に基づいて検証すること」です。具体的には、仮説とのずれが意味を持つのか、誤差の範囲内なのかを検証します。意味を持つなら、仮説とのずれは「有意(significant)」といい、立てた仮説を「統計学的仮説(statistical hypothesis)」といいます。

大半の人が上のようなリアクションになると思います。

では、統計学的検定の前に、検定の基となる考え方を解説します。

[演習1]あなたが道を歩いていると、身長がとても高い人が前方から歩いてきた。遠目だがおそらく2メートル以上はある。あなたは「ああ、背の高い人だな、たぶん日本人ではないだろうな」と考えた。

この仮説を検証可能な文章にすると、

仮説「2メートル以上の人は、日本人でない。」

となります。さて、この仮説は正しいでしょうか。

もちろん正しくありません。なぜなら、2メートル以上の日本人は存在するからです。数学では100%成り立つことしか、正しいと認めません。したがって、1つでも反する例があれば、仮説は否定されます。

しかし、「背の高い人だな、日本人ではないだろうな」との考えはたいていの場合、合っているので自然な推論であると思えます。

数学と統計学では考え方が違うのです。

【数学】仮説は正しくない (100%でないから)

【統計学】仮説は正しい (95%くらいは合っていそうだから)

統計学の「検定」では、この違いを理解することが重要です。

仮説を100%立証するのが難しくても、たいていの場合、合っているような曖昧な状況に、「確率」を導入することで判断できるのが、統計学のすばらしい点です。

統計学は確率が計算できる説を正しいと仮定し、覆すことで反対の仮説を立証する

検定の基となる考え方を、数学的な例で解説しましょう。

[演習2]あなたは、コイン投げの賭け事をしている。表が出たら私の勝ちで100万円をあなたからもらう、裏が出たらあなたの勝ちで100万円を私から受け取る。コインは私が用意した。
20回投げたとき、15回の表が出た。

さて、あなたはどう感じるでしょうか。

感じ方は2つに分かれます。

  1. 20回中15回も表が出るなんておかしい。あのコインは何か歪みがある
  2. 20回中15回くらいなら表が出てもおかしくない。コインに歪みがあるとは言えない

1000万円損をしているあなたは、1と考えるでしょう。

少し数学的に考えましょう。

「コインに歪みがない」場合、半分の確率で表か裏がでます。数値化すると、1/2の確率で表が出るとなり、数式ではp = 1/2で表します。pは確率を表すときに用いる記号です。逆に歪みがある場合は、表が出る確率は求められないので、 p ≠ 1/2で表し、「帰無仮説(null hypothesis)」といいます。記号ではH0と表します。

あなたの希望する仮説「コインに歪みがある」は、数式ではp ≠ 1/2と表し、「対立仮説(Alternative hypothesis)」といいます。記号はH1で表します。まとめると、

コインに歪みがない 帰無仮説H0: p = 1/2
コインに歪みがある 対立仮説H1: p ≠ 1/2

となります。

統計学的仮説検定では、希望する仮説「対立仮説H1」の逆、「帰無仮説H0」を否定するこで、対立仮説H1の正当性を示すと、遠回りなことをします。いったん帰無仮説H0が正しいと仮定して帰無仮説H0を検定するのです。

帰無仮説H0を正しいと仮定し、20回中15回以上表が出る確率は0.0207になります。コインが歪んでいないなら、20回中15回以上表が出る確率は約2%程度であるとわかります。つまり、だいたいコインを20回投げる試行を100回繰り返すと、2回は15回以上表が出るとなります。

コラム:確率の求め方

20回中15回表が出る確率の計算はかなり大変なので、ここでは覚える必要はありませんが、興味のある方のために簡単に解説します。今回の確率の計算を式にすると、

20C5(1/2)15 (1/2)5

となります。

1つずつ解説します。確率(1/2)の表が出る事象が15回で(1/2)15、同様に裏が5回出るので(1/2)5になります。さらに、20C5は20個の中から5個を選んだときのパターンの数を示しています。

計算すると、20*19*18*17*16/5! になります。したがって、20C5 = 15504通りになります。

これと(1/2)15 * (1/2)5 = (1/2)20 = 0.000000953674を掛け合わせると、

15504 * 0.000000953674 = 0.01478576となります。

同様に、20回中16回表、20回中17回、18回、19回、20回表のときを計算して、和を取れば、0.0207の値が計算できます。

詳しく知りたい方はぜひ調べてみてください。

帰無仮説H0が正しいときに、20回中15回表が出た今回の出来事はかなりまれな出来事であるといえます。統計学的仮説検定ではまれな出来事は起こらないと判断するので、帰無仮説H0は正しいを棄却(reject)し、対立仮説H1が正しいと判断するのが合理的です。

さて、ここで対立仮説H1を採択すること(accept)は、いったん帰無仮説H0を認め、その上で確率計算をすることでしかできないことに気づいてもらえたでしょうか?そう、対立仮説H1条件が≠で結ばれているため、確率の計算ができないのですね。

前にも述べたように、統計学的仮説検定は、仮説に対して確率合理的な判断(かなりまれなことは起こらない)を使いますが、そもそも確率が計算できないことには、話が前に進みません。したがって、一見するとめんどくさいのですが、いったん示したいことの逆を考え、そしてそれを否定するというやり方をとります。

まれか判断する基準を決める「有意水準」

先ほど計算して求めた確率の0.0207(約2.07%)が「まれ」だと判断しましたが、人によってはまれではないと判断する人もいるでしょう。判断基準が人によって異ならないために、「まれな事象」を判断する共通の見解が必要です。まれの基準を決めることを「有意水準(significance level)を決める」といい、αで表します。

基本的には、α= 0.1、0.05、0.01などがよく用いられますが(特にα=0.05が多い)、今回の例は両側検定の片側p値しか見ていない(コラムを参照)ので、α/2 = 0.025と比較しています。

コラム:両側検定、片側検定と有意水準

今回の例では、対立仮説に以下の仮説を採用しています。

コインに歪みがある 対立仮説H1:p ≠ 1/2

この仮説は、表が出やすい場合だけでなく、表が出にくい場合も含んでいます。
したがって、「表の出る回数が20回中5回」という事象が起こった場合でも、帰無仮説H0は正しくなります。このように、今回起きた状況だけでなく、その逆側も含んだような仮説検定を両側検定といいます。

では、以下の対立仮説H1を示したいと考えた場合はどうでしょう。

表の方が出やすい 対立仮説H1:p > 1/2

「表の出る回数が20回中5回」という事象が起こった場合、対立仮説H1を正しいとは考えないのが合理的ですね。このように、片側の状況しか対立仮説H1に含めないものを片側検定と言います。

通常の検定では、両側検定を基本に考えます。有意水準は、両側検定のα= 0.05を採用するのが一般的です。

ただし、この場合帰無仮説H0が正しいときに、表の出る回数が20回中15回表が得られる確率 p = 0.0207とその逆の状況20回中5回表が得られる確率p=0.0207を足した、P = 0.0414が有意水準α = 0.05を下回るということが、帰無仮説H0を棄却するためには必要です。

p(スモールピー)を片側p値、P(ラージピー)を両側P値といいます。

コインの例で、α=0.025と決めた場合、確率が0.0207はまれと判断し、α=0.005と決めた場合はまれではないと判断します。有意水準をα=0.05とした場合、帰無仮説H0「このコインは歪んでいない p=1/2」は受容(accept)されます。

真実と判断

仮説検定は確率を基にした判断手法です。すなわち、常に間違える可能性を抱えています。仮説検定から得るのは、ある種の確率合理的な判断(judgment)であって、真実(truth)ではないのです。

このことは、確率の性質から避けられないものの、生じる間違いには2つのパターンがあります。以下に、判断と真実の関係を示します。

判断\真実 H0が正しい H0は誤っている
H0を受容 OK 誤り②
H0を棄却  誤り① OK

真実に対して帰無仮説H0を棄却するかしないかの判断を誤ることがあります。表の「誤り①」のことを第一種の誤り(type1 error)といい、「誤り②」のことを第二種の誤り(type2 error)と呼びます。

コインの例では、第一種の誤りは「本当はコインは歪んでいないのに歪んでいると判断すること」に、第二種の誤りは「本当はコインは歪んでいたのに、歪んでいないとの判断を下す」になります。

Webの文脈でいうなら第一種の誤りは「本当は効果はない改善施策に効果があるとみなす」、第二種の誤りは「本当は効果があった改善施策を、効果なしとみなす」ということになるでしょうか。

第一種の誤りが起こる確率は有意水準αで決まります。第一種の誤りは有意水準αを小さくすることで起こりにくくなります。αは自分で決定することができるので、第一種の誤りはコントロールが容易です。しかし、第二種の誤りを起こす確率βが高くなってしまいます。αとβはトレードオフの関係にあり、有意水準の調整だけでは、両方の誤りを減らすことはできません。

分析者はどちらの誤りを起こしたくないを考えて、有意水準を調整します。有意水準は「まれの基準」のほかに、「どちらのエラーを許容するかの調整定数」の意味も持っています。

統計学的仮説検定は、現実の問題に対して非常に有用な、仮説の真偽の判断法ですが、このような間違いを起こす可能性を常に含んでいるということは、頭に置いておいてください。

瀬下大輔

瀬下大輔

東京大学大学院教育学研究科卒業 教育学修士(数学教育)。大学院を卒業後、社会人のための数学教室「すうがくぶんか」を設立。よみうりカルチャースクール講師、ウェブ解析士協会主催「ウェブ解析と統計」講師。その他、法人向け数学・統計学研修/統計分析コンサルタントなど実績多数。

Loading...