メニュー
yu-to
管理者
本ブログを運営しているyu-toと申します。

高校数学の解説や公務員試験問題の解説、データサイエンスについての記事を書いていきます!

「データサイエンス×教育」に興味があり、日々勉学に励んでいます。

少しでも役に立つ情報の発信をしていきますのでぜひ読んでください。

また、同志からのお声がけはとても励みになります。ぜひ、コメントやメール、SNS等でご連絡ください!
カテゴリー
統計学初学者サポートこちらをクリック

【確率分布と統計的な推測】母平均の推定をわかりやすく解説

目次

データアナリストへの道

少し数字に強い理系大学卒から駆け出しデータアナリストになるまでに、実際に読んだ50冊以上の本から厳選して、基本的な理論から実践的スキルまでを身につけられるようにデータ分析初学者向けにまとめました。>>記事を読む

母平均の推定

一般的に、母集団(調査対象の集団)の大きさが大きいときには、それらの分布を調べることは簡単ではありません。そこで、母集団分布の母平均や母比率を効果的に、かつ誤差が少なく推定する方法について考えることが必要になります。

もう少しわかりやすく言うなら、

推定(標本調査)の意義

数が多いと、数えて計算するのは大変だから、そこから何人かを抽出して全体がどんな感じかを予想しましょう。

ということです。

また、抽出した値から全体の平均を幅を持たせて求める際に信頼区間を用います。

例えば、平均は \(25\) というように断言するのではなく、\([18\), \(32]\) といった感じです。

下図のように \(10\) 個の信頼区間のうち \(9\) 個の信頼区間が平均を含む場合、

「信頼度 \(90\) %の信頼区間\([18\), \(32]\) 」

と呼びます。

詳細を説明していきます!

信頼区間

標本の大きさ \(n\) が大きいとき、母平均 \(m\) に対する

 信頼度 \(95\) %の信頼区間は、

 \(\big[\overline{X}-1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}},\) \(\overline{X}+1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\big]\)

 信頼度 \(99\) % の信頼区間は、

 \(\big[\overline{X}-2.58\cdot \displaystyle\frac{\sigma}{\sqrt{n}},\) \(\overline{X}+2.58\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\big]\)

解説

母平均がわからないとき、それを標本平均 \(\overline{X}\) を用いて推定することを考える。一般に、母平均 \(m\), 母標準偏差 \(\sigma\) をもつ母集団から、大きさ \(n\) の無作為標本を抽出するとき、その標本平均 \(\overline{X}\) は、\(n\) が大きいとき、近似的に正規分布 \(N\big(m\), \(\displaystyle\frac{\sigma^2}{n}\big)\) に従う。

よって、\(Z=\displaystyle\frac{\overline{X}-m}{\displaystyle\frac{\sigma}{\sqrt{n}}}\) は近似的に\(N(0\), \(1)\) に従うから、任意の正の数 \(c\) に対して

\(P\big(|\overline{X}-m|\leq c\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\big)=P(\overline{Z}\leq c)=2p(c)\)

となる。ただし、\(p(c)=P(0\leq Z\leq c)\) である。

ゆえに

\(P\big(m-c\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\leq \overline{X}\leq m+c\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\big)=2p(c)\)

 したがって

\(P\big(\overline{X}-c\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\leq m\leq \overline{X}+c\cdot \displaystyle\frac{\sigma}{\sqrt{n}}=2p(c)\) \(\cdots\) ①

ここで、例えば、\(2p(c)=0.95\) とすると、\(p(c)=0.475\) となるから、正規分布表より \(c=1.96\) を得る。

よって

\(P\big(\overline{X}-1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\leq m\leq \overline{X}+1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\big)=0.95\)

この式は、区間 \(\overline{X}-1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\leq x\leq \overline{X}+1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\) が母平均 \(m\) の値を含むことが約 \(95\) % の確らしさで期待されることを示している。この区間を

\(\big[\overline{X}-1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\), \(\overline{X}+1.96\cdot \displaystyle\frac{\sigma}{\sqrt{n}}\big]\) \(\cdots\) ②

のように表し、母平均 \(m\) に対する信頼度 \(95\) % の信頼区間という。

 母平均の推定(問題)

ある工場で大量生産されている電球の中から無作為に抽出した \(25\) 個について試験したところ、それらの寿命の平均値は \(1500\) 時間であった。製品全体の平均寿命を信頼度 \(95\) % で推定せよ。ただし、製品の寿命は正規分布に従い、標準偏差は \(110\) 時間である。

解説

標本の大きさ:\(n=25\)
標本平均:\(\overline{X}=1500\)
母標準偏差は:\(\sigma=110\)

製品の寿命は正規分布に従うから、標本平均 \(\overline{X}\) は正規分布 \(N\big(m\), \(\displaystyle\frac{\sigma^2}{n}\big)\) に従う。

「正規分布に従う」とは、平均に近いものは多くて、平均から離れるほど少なくなるということ!

例えば、数学のテストは60点くらいの人が多くて、10点以下とか、90点以上になると人数が減りますね。

$$Z=\displaystyle\frac{1500-m}{\frac{110}{\sqrt{25}}}=\frac{1500-m}{22}$$

$$f(|Z|\leq c)=2f(Z\leq c)=0.95$$

\(f(Z\leq c)=0.475\) となる \(c\) は、正規分布表より \(1.96\) となる。

\begin{eqnarray} f(-1.96\leq Z \leq 1.96) &=& f(-1.96\leq \displaystyle\frac{1500-m}{22}\leq 1.96)\\ &=& f(-1.96\cdot 22\leq 1500-m\leq 1.96\cdot 22)\\ &=& f(-1.96\cdot 22-1500\leq -m\leq 1.96\cdot 22-1500)\\ &=& f(1500-1.96\cdot 22\leq m\leq 1500+1.96\cdot 22)\\ &=& f(1456.88\leq m\leq 1543.12) \end{eqnarray}

よって、信頼度 \(95\) % の信頼区間は、\([1457\), \(1543]\)

おわりに

さいごまで読んでいただきありがとうございました!

このブログは統計学を学びたい学生/社会人向けに記事を書いています。

【最新】こちらの記事がおすすめ!

>>

  • URLをコピーしました!
目次