仮説検定とは
仮説検定は、ある事象や主張に対して「それが偶然の産物か、統計的に意味があるのか」を判断するために用いられます。具体的には、まず検定したい仮説 (帰無仮説) を立て、その仮説がデータに基づいて棄却できるかどうかを判断します。
データアナリストは日々あらゆる仮説を立てながら業務を進めます。その仮説が正しいと言えるかどうかを検証する際に仮設検定は活用されます。
仮説検定の基本的な手順
帰無仮説 \(H_0\)は、仮定するべき現状の仮説で、例えば「新しい学習プログラムは効果はない(テストの点数は変わらない)」という仮説です。対立仮説 \(H_1\) は、それに反する仮説で、「新しい学習プログラムは効果がある(テストの点数に変化がある)」といった主張です。
有意水準 \(\alpha\) は、帰無仮説が正しいと仮定してデータを得た際に、それが偶然であるかどうかを判断する基準です。一般的には \(5\) %や \(1\) %の有意水準が設定され、これは「帰無仮説が正しい場合に、このデータが観察される確率が \(5\) %以下であれば帰無仮説を棄却する(対立仮説を支持する)」という意味です。
検定統計量は、データの結果を数値化したもので、標準化された尺度に従って仮説を評価します。例えば、\(Z\) 検定や \(t\) 検定では、データに基づいて \(Z\) 値や \(t\) 値を算出します。
\(p\) 値は、帰無仮説が正しいと仮定したときに、観察されたデータが得られる確率です。\(p\) 値が有意水準よりも小さければ、帰無仮説を棄却します。これは、「このデータが偶然に観察される可能性が非常に低い」ということを意味します。
\(p\) 値が有意水準よりも低い場合、帰無仮説を棄却し対立仮説を支持します。逆に、\(p\) 値が有意水準以上であれば、帰無仮説を棄却できないため、帰無仮説が維持されます。
t検定を用いた問題例
問題
ある学校で、毎日行われる英単語テストの平均点が \(70\) 点だとされています。しかし、新しい学習プログラムを導入した後、生徒たちのテスト結果が変わったかどうかを調べたいと考えています。そこで、新しいプログラムの効果を確認するために、\(30\) 名の生徒を無作為に選び、そのテストの平均点が従来の \(70\) 点と異なるかどうかを \(t\) 検定で確認します。\(30\) 名の生徒のテスト結果を以下のように収集しました。
75, 68, 72, 71, 73, 77, 69, 74, 70, 71,
72, 65, 78, 73, 67, 76, 69, 71, 72, 74,
75, 66, 70, 71, 73, 74, 69, 75, 70, 72
手順
帰無仮説と対立仮説の設定
帰無仮説 \(H_0\):新しいプログラムの導入後の生徒のテスト平均点は \(70\) 点と同じである(つまり、効果はない)。
対立仮説 \(H_1\):新しいプログラムの導入後の生徒のテスト平均点は \(70\) 点と異なる(プログラムに効果がある)。
有意水準の設定
\(5\) %とする。
検定統計量の計算 (\(t\) 検定)
- \(\overline{X}\) はサンプルの平均点
- \(\mu_0\) は帰無仮説での期待平均値 \(70\) 点
- \(s\) はサンプルの標準偏差
- \(n\) はサンプルサイズ \(30\)
\(t = \displaystyle\frac{\overline{X}-\mu_0}{s /\sqrt{n}}\)
\(=\displaystyle\frac{71.3-70}{3.1/\sqrt{30}}\approx\frac{1.3}{0.566}\approx 2.30\)
\(p\) 値の計算
自由度 \(=n-1=30-1= 29\)
自由度 \(29\) の \(t\) 分布表を参照すると、\(t\) 値が約 \(2.30\) の場合、\(p\) 値は約 \(0.03\) です。
結論の出力
有意水準 \(5\) %(\(0.05\))よりも \(p\) 値が小さいため、帰無仮説を棄却します。つまり、新しい学習プログラムの導入により、テストの平均点が \(70\) 点とは有意に異なるという結論が得られます。
解説
この \(t\) 検定の結果から、導入された新しい学習プログラムが従来のプログラムと比べて生徒の平均点に影響を与えている可能性が高いことがわかります。具体的には、平均点が \(70\) 点から \(71.3\) 点に向上しており、\(p\) 値が \(0.03\) と有意水準 \(5\) %を下回るため、帰無仮説を棄却して対立仮説を支持することができます。
\(t\) 検定は、このように平均値の差が偶然によるものか、それとも統計的に有意な違いかを判断するために使われ、特にサンプルサイズが比較的小さい場合に有効な手法です。この例では、新しいプログラムの効果が確認できたため、プログラムの改善や採用についてさらに詳細な検討が行われるでしょう。
仮説検定の種類
仮説検定にはいくつかの種類があり、目的やデータの性質に応じて使い分けられます。以下に代表的な検定方法を紹介します。
母分散が分かっている:\(Z\) 検定
基本的にはサンプルサイズが十分に得られている場合に使用します。標準正規分布を基準に検定統計量を算出し、それに基づいて帰無仮説を評価します。
$$Z = \displaystyle\frac{\overline{X} – \mu_0}{\frac{\sigma}{\sqrt{n}}}$$
- \(\overline{X}\):サンプルの平均
- \(\mu_0\):母集団の平均(帰無仮説で仮定する平均)
- \(\sigma\):母集団の標準偏差(既知)
- \(n\):サンプルサイズ
母分散が分かっていない:\(t\) 検定
小さなサンプルサイズでも有効です。\(t\) 検定には以下の \(3\)つの種類があります。
- \(1\) 標本 \(t\) 検定: 一つの標本の平均値が、既知の値と異なるかどうかを検定します。
- 対応のあるt検定: 同じ被験者に対して異なる条件でデータを取得した場合に、それらの条件間で差があるかを検定します。
- 対応のないt検定: 異なる \(2\) つのグループ間の平均値に差があるかを検定します。
$$t = \displaystyle\frac{\overline{X}-\mu_0}{s /\sqrt{n}}$$
- \(\overline{X}\):サンプルの平均点
- \(\mu_0\):母集団の平均
- \(s\):サンプルの標準偏差
- \(n\):サンプルサイズ
カテゴリカルデータの場合:カイ二乗検定
たとえば、観測されたデータが期待される割合からどの程度ずれているかを評価します。この検定は、適合度検定や独立性の検定で使用され、例えばアンケート調査などのカテゴリデータに対して有効です。
$$\chi^2 = \sum \frac{(O_i – E_i)^2}{E_i}$$
- \(O_i\):観測された値(実際に得られたデータ)
- \(E_i\):期待値(理論上予想される値)
仮説検定における誤り
仮説検定には \(2\) つの主要な誤りがあります。
- 第 \(1\) 種の誤り(\(\alpha\) エラー)
帰無仮説が正しいにもかかわらず、それを誤って棄却してしまう誤りです。有意水準を低く設定することで、この誤りのリスクを減らせます。 - 第 \(2\) 種の誤り(\(\beta\) エラー)
対立仮説が正しいにもかかわらず、帰無仮説を棄却できない誤りです。サンプルサイズを大きくすることで、第2種の誤りを減らすことができます。
まとめ
仮説検定は、データに基づいて意思決定を行うための強力な手法です。
帰無仮説と対立仮説を明確にし、\(p\) 値を用いた判断基準を設けることで、データがどの程度信頼できるかを評価できます。また、\(Z\) 検定や \(t\) 検定などの代表的な検定方法を適切に使い分けることで、仮説に対するより正確な結論を導き出すことが可能です。
さいごまで読んでいただきありがとうございました!
【最新】こちらの記事がおすすめ!