メニュー
yu-to
管理者
本ブログを運営しているyu-toと申します。

高校数学の解説や公務員試験問題の解説、データサイエンスについての記事を書いていきます!

「データサイエンス×教育」に興味があり、日々勉学に励んでいます。

少しでも役に立つ情報の発信をしていきますのでぜひ読んでください。

また、同志からのお声がけはとても励みになります。ぜひ、コメントやメール、SNS等でご連絡ください!
カテゴリー
統計学初学者サポートこちらをクリック

【データの分析】『データの修正』平均値・分散の変化

目次

データアナリストへの道

少し数字に強い理系大学卒から駆け出しデータアナリストになるまでに、実際に読んだ50冊以上の本から厳選して、基本的な理論から実践的スキルまでを身につけられるようにデータ分析初学者向けにまとめました。>>記事を読む

データの修正(平均値と分散)

今回はデータが修正された時に平均値・分散がどのように変化するのかを解説していきます。

解説する前に、使用する公式の確認をしましょう。大きさ \(n\) のデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\) とするとき、

平均値 \(\bar{x}\)
 \(\bar{x}=\displaystyle\frac{1}{n}(x_1+x_2+\cdots +x_n)\)

分散 \(s^2\)
 \(s^2=\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2\}\)
また、\(s^2=\bar{x^2}-(\bar{x})^2\) で計算できる。

データの修正の問題

次のデータは、ある都市のある年の月ごとの最高気温を並べたものである。

\(5\), \(4\), \(8\), \(12\), \(17\), \(24\), \(27\), \(28\), \(22\), \(30\), \(9\), \(6\) (単位は \(^\circ C\) )

(1) このデータの平均値を求めよ

(2) このデータの中で入力ミスが見つかった。\(30^\circ C\) となっている月の最高気温は正しくは \(18^\circ C\) であった。この入力ミスを修正すると、このデータの平均値は修正前より何度減少するか。

(3) このデータの中で入力ミスが見つかった。正しくは \(6^\circ C\) が \(10^\circ C\), \(30^\circ C\) が \(26^\circ C\) であった。この入力ミスを修正すると、このデータの平均値は(ア)し、分散は(イ)する。

(ア),(イ)に当てはまるものを次の ①, ②, ③ から選べ。

 ① 修正前より増加
 ② 修正前より減少
 ③ 修正前より一致

解説

(1) このデータの平均値を求めよ

\(\displaystyle\frac{1}{12}(5+4+8+12+17+24+27+28+22+30+9+6)\)
\(=\displaystyle\frac{1}{12}\times 192=16\)

(2) このデータの中で入力ミスが見つかった。\(30^\circ C\) となっている月の最高気温は正しくは \(18^\circ C\) であった。この入力ミスを修正すると、このデータの平均値は修正前より何度減少するか。

平均値 \(=\) \(\displaystyle\frac{データの総和}{データの大きさ}\)

平均値の変化はデータの総和の変化に注目。

データの総和は \(12^\circ C\) 減少するから、データの平均値は修正前より

\(\displaystyle\frac{12}{12}=1\) (\({}^{\circ} C\)) 減少する。

(別解)

\(30^{\circ} C\) を \(18^{\circ} C\) に変更して再度平均値を計算することで求めることもできます。

\(\displaystyle\frac{1}{12}(5+4+8+12+17+24+27+28+22+18+9+6)\)
\(=\displaystyle\frac{1}{12}\times 180=15\)

(3) このデータの中で入力ミスが見つかった。正しくは \(6^\circ C\) が \(10^\circ C\), \(30^\circ C\) が \(26^\circ C\) であった。この入力ミスを修正すると、このデータの平均値は(ア)し、分散は(イ)する。

(ア)

修正前:\(6^\circ C\) と \(30^\circ C\)
修正後:\(10^\circ C\) と \(26^\circ C\)

修正前と修正後を比べると、\(6+30=10+26\) となるので、答えは ③

(別解)

修正後の値で再度平均値を計算することで求めることもできます。

\(6^\circ C\) が \(10^\circ C\) 増加し、\(30^\circ C\) が \(26^\circ C\) に減少するので、

\(\displaystyle\frac{1}{12}(5+4+8+12+17+24+27+28+22+26+9+10)\)

\(=\displaystyle\frac{1}{12}\times 192=16\)

(イ)ミスが起こった部分に着目し、偏差の2乗の和を計算してみる。

分散 \(=\) \(\displaystyle\frac{偏差の2乗の総和}{データの大きさ}\)

分散の変化は偏差の \(2\) 乗の総和の変化に注目。

修正前:\((6-16)^2+(30-16)^2=296\)
修正後:\((10-16)^2+(26-16)^2=136\)

ゆえに、偏差の2乗の和は減少するから、分散は修正前より減少する。

よって、②

おわりに

今回は、データが修正された時の平均値・分散がどのように変化するのかを例題を使って解説してきました!

さいごまで読んでいただきありがとうございました!

このブログは統計学を学びたい学生/社会人向けに記事を書いています。

【最新】こちらの記事がおすすめ!

>>

  • URLをコピーしました!
目次