メニュー
yu-to
管理者
本ブログを運営しているyu-toと申します。

高校数学の解説や公務員試験問題の解説、データサイエンスについての記事を書いていきます!

「データサイエンス×教育」に興味があり、日々勉学に励んでいます。

少しでも役に立つ情報の発信をしていきますのでぜひ読んでください。

また、同志からのお声がけはとても励みになります。ぜひ、コメントやメール、SNS等でご連絡ください!
カテゴリー
統計学初学者サポートこちらをクリック

【統計学の応用】推定

目次

データアナリストへの道

少し数字に強い理系大学卒から駆け出しデータアナリストになるまでに、実際に読んだ50冊以上の本から厳選して、データ分析初学者向けにまとめました。基本的な理論から実践的スキルまで、データアナリストになるために必要なスキルを身につけられると思います。>>記事を読む

推定とは

「推定」とは、サンプルデータを使って母集団に関する情報を推測する手法です。

推定には、大きく分けて「点推定」と「区間推定」の \(2\) つの手法があります。本記事では、点推定と区間推定の考え方やその具体的な手順、さらには実際の応用例について解説します。

点推定

点推定とは、母集団の未知のパラメータ(例えば母平均や母分散)を、サンプルデータを基に \(1\) つの値で推定する手法です。

例えば、サンプルの平均値を母平均の点推定値として使うことが一般的です。この場合、サンプル平均は母集団全体の平均値に対する最も確からしい推定値となります。

点推定の特徴

  • 単一値による推定:母集団の特性を \(1\) つの数値で推定する。
  • 精度の向上:サンプルサイズが大きいほど、点推定の精度は向上する。
  • 偏りと分散:点推定には「偏り」が存在することがあり、また、推定値の「分散」も推定精度に影響を与える。

点推定の手順

点推定を行う際の基本的な手順は以下の通りです。

STEP
母集団とサンプルの定義

推定したい母集団の特性(母平均や母分散など)を定義し、適切なサンプルデータを集めます。

STEP
推定量の選択

推定に使用する統計量を選びます。例えば、母平均の推定には「サンプル平均」、母分散の推定には「サンプル分散」を使用します。

STEP
推定値の算出

選んだ推定量に基づいて、サンプルデータから推定値を計算します。これが点推定の結果です。

点推定の例題

問題)

ある工場では、製造された製品の平均重量を推定したいと考えています。この工場で製造される製品の理論的な平均重量は \(500\) gですが、実際には個々の製品にはばらつきがあります。ランダムに選んだ \(50\) 個の製品を測定し、その結果を以下のようにまとめました。

  • サンプルサイズ \(n = 50\)
  • サンプルの平均重量 \(498\) g
  • サンプルの標準偏差 \(4\) g

このサンプルの結果から、工場の全製品の平均重量(母平均)を点推定してください。

解説)

母平均 \(\mu\) の点推定値は、サンプルの平均値をそのまま使用します。つまり、点推定値 \(\hat{\mu}\) はサンプル平均 \(\bar{x}\) に等しくなります。

$$\hat{\mu} = \bar{x} = 498g$$

したがって、この例では母平均の点推定値は \(498\) gとなります。

点推定の精度を評価するために、サンプル平均の標準誤差を計算します。標準誤差は、サンプルの標準偏差 \(s\) をサンプルサイズの平方根で割った値です。

$$\text{標準誤差} = \frac{s}{\sqrt{n}} = \frac{4}{\sqrt{50}} \approx 0.566$$

この結果から、母集団の平均重量は \(498\) gと点推定されます。ただし、この推定には標準誤差が伴い、サンプル平均が母平均に対してどの程度精度が高いかを示します。標準誤差が小さいほど、点推定の信頼性が高くなります。

今回の例では、サンプルデータを用いて母集団の平均重量を \(498\) gと点推定しました。この値はサンプル平均に基づいており、標準誤差が \(0.566\) gであることから、比較的高い精度で推定されたといえます。

区間推定

区間推定の手順

区間推定は、点推定が1つの値を用いるのに対して、母集団のパラメータが存在すると考えられる範囲(信頼区間)を提示します。

区間推定は、より確実に母集団の特性をカバーできるため、点推定よりも実用的なケースが多くあります。区間推定の手順は次の通りです。

STEP
信頼水準の設定

通常、\(95\) %や \(99\) %といった信頼水準を設定します。信頼水準は、母集団の真の値が推定区間内に含まれる確率を表します。

STEP
標準誤差の算出

推定量の標準誤差を計算し、その誤差を考慮した上で、点推定値の周りに信頼区間を設定します。

STEP
信頼区間の計算

点推定値から標準誤差を用いて、信頼区間の上限と下限を求めます

区間推定の例題

問題)

ある工場では製造された製品の平均重量を推定したいと考えています。ランダムに選んだ \(50\) 個の製品を測定し、その結果、サンプルの平均重量が \(498\) g、標準偏差が \(4\) gでした。このサンプルデータを使用して、\(95\) %信頼区間を求め、工場の全製品の平均重量(母平均)を区間推定してください。

解説)

母平均 \mu の区間推定を行うために、次の公式を使用します。

$$\bar{x} \pm z \times \frac{s}{\sqrt{n}}$$

\(\bar{x}\):サンプルの平均 \(498\) g
\(s\):サンプルの標準偏差 \(4\) g
\(n\):サンプルサイズ \(50\)
\(z\):標準正規分布に基づく臨界値 \(95\) %信頼区間の場合、\(z = 1.96\)

まず、サンプル平均の標準誤差を計算します。

$$\text{標準誤差} = \frac{s}{\sqrt{n}} = \frac{4}{\sqrt{50}} \approx 0.566$$

次に、\(95\) %信頼区間の両端を計算します。信頼区間は、サンプル平均 \(\bar{x}\) に標準誤差の \(1.96\) 倍を足し引きすることで求められます。

$$\text{信頼区間の上限} = \bar{x} + z \times \text{標準誤差} = 498 + 1.96 \times 0.566 \approx 499.11$$

$$\text{信頼区間の下限} = \bar{x} – z \times \text{標準誤差} = 498 – 1.96 \times 0.566 \approx 496.89$$

したがって、母平均の \(95\) %信頼区間は \(496.89\) gから \(499.11\) g となります。

この結果から、母集団の平均重量は、\(95\) %の確率で \(496.89\) gから \(499.11\) gの間にあると推定されます。これは、サンプルデータを使って母平均を推定した際の信頼区間であり、\(95\) %の信頼水準でこの範囲内に母平均が含まれることを示します。

今回の区間推定では、工場の製品の平均重量を \(95\) %の信頼水準で \(496.89\) gから \(499.11\) g の間にあると推定できました。点推定だけでなく、区間推定を行うことで、推定の精度や信頼性をより具体的に表現することができます。

おわりに

他にも、母平均の差や母分散の比の信頼区間など幅広く活用されます。

推定は、データから母集団のパラメータを導き出すための重要なツールです。点推定は簡便ですが、区間推定はより信頼性の高い結果を提供します。統計学における推定手法を理解し、適切に使いこなすことは、データを基にした意思決定に不可欠です。

さいごまで読んでいただきありがとうございました!

このブログは統計学を学びたい学生/社会人向けに記事を書いています。

【最新】こちらの記事がおすすめ!

>>

  • URLをコピーしました!
目次