分散と標準偏差の違い
この記事では、分散と標準偏差の違いについて整理していきます。
実際の問題では、「分散を求めなさい」や「標準偏差を求めなさい」のように問題文に書いてあるので混乱することはないかもしれません。しかし、どういう場面でどっちを扱うのか。というのは数学を深める上で重要な部分になります。
すこし玄人向けの内容にはなりますが、ぜひ読んでみてください!
分散と標準偏差の公式
分散 \(s^2\)
\(s^2=\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2\}\)
また、\(s^2=\bar{x^2}-(\bar{x})^2\) で計算できる。
標準偏差 \(s\)
\(s=\sqrt{\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2\}}\)
\(=\sqrt{\bar{x^2}-(\bar{x})^2}\)
分散と標準偏差の公式の違い
上記の公式をよく見ると、\(\sqrt{(分散)}=(標準偏差)\) となっていることがわかると思います。
分散は標準偏差を \(2\) 乗した値です。どちらもほぼ同じ公式ですが、どのように使い分けられるのでしょうか?
ここから、例題を用いて使い分けについて書いていきますが、まずは結論から…
では、例題を見ながら紐解いていきましょう!
分散と標準偏差の違い〜例題〜
例題)クラス A 生徒 5 人の数学のテストが \(25\), \(56\), \(68\), \(76\), \(92\) のとき、分散、標準偏差どちらを用いるのが一般的に適切か。
それぞれのデータの値を \(x_1\), \(x_2\), \(x_3\), \(x_4\), \(x_5\) とし、平均値を \(\bar{x}\) とする。
\(\bar{x}=\displaystyle\frac{25+56+68+76+92}{5}=63.4\)
※ 以下 \(63\) として計算します。
〈分散〉
\(\displaystyle\frac{1}{5}\{(25-63)^2+(56-63)^2+(68-63)^2+(76-63)^2+(92-63)^2\}\)
\(=\displaystyle\frac{1}{5}\{(-38)^2+(-7)^2+5^2+13^2+29^2\}\)
\(=\displaystyle\frac{1}{5}\cdot 2528=505.6\)
〈標準偏差〉
\(\sqrt{505.6}=22.48\)
さて、分散と標準偏差の値をそれぞれ求めましたが、どちらが適切でしょうか?
適切なのは、標準偏差です!
今回扱っているデータは、テストの点数です。テストと言えば一般的には \(0\) 〜 \(100\) の間で表されます。 \(5\) 人の点数がどれだけ散らばっているかという値が分散の \(505.6\) というのは直感的に大きすぎる気がしませんか?そこでその平方根である標準偏差 \(22.48\) を扱った方が適切だと言えます。
分散の計算式を見ると、途中で \((データ-平均値)^2\) という部分があると思います。これは \(2\) 乗しないと散らばりが \(0\) になってしまうことを防ぐための計算ですが、これが直感以上に値が大きくなってしまう原因です。
おわりに
今回は分散と標準偏差の違い(使い分け)について書いてきました。
データによって使い分けは変わってきますが、一般的には直感に即した標準偏差が使われることが多いでしょう。
さいごまで読んでいただきありがとうございました!
【最新】こちらの記事がおすすめ!