データのばらつきとは
データ分析において、「ばらつき」は重要な概念です。
ばらつきとは、データが平均値や中心値からどの程度離れているかを示す指標
データの散らばり具合を表します。
ばらつきを理解することは、データの特徴を正確に把握し、意思決定に役立てるために欠かせません。本記事では、ばらつきの種類を用途に分けて解説し、それぞれに対応する例を提示していきます。
ばらつきの種類と用途
分散と標準偏差
分散と標準偏差は、データがどれだけ平均から離れているかを知るために使われます。
分散は、各データ点が平均値からどの程度離れているかを二乗して平均したもので、標準偏差はその平方根をとったものです。
分散を \(\sigma^2\) とし、大きさ \(n\) のデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\) とするとき、
$$\sigma^2=\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2\}$$
例)
テストの点数が \(70, 75, 80, 85, 90\) 点の \(5\) つのデータがあるとします。このデータの平均は \(80\) 点です。ここで、分散を計算すると、各点数が \(80\) からどの程度離れているかを測ることができます。
\(\displaystyle\frac{1}{5}\{(70-80)^2+(75-80)^2+(80-80)^2+(85-80)^2+(90-80)^2\}=50\)
よって、分散は \(50\)、標準偏差は \(\sqrt{50}=5\sqrt{2}\) となります。
四分位範囲
四分位範囲は、データを四等分して \(50\) %の範囲のばらつきを表す指標です。
異常値や極端な値の影響を排除して、データの中心部分のばらつきを見る際に有効です。データが非正規分布である場合や、外れ値が多い場合に特に役立ちます。
第一四分位数を \(a\)、第三四分位数を \(b\) とすると、\(b-a\) を四分位範囲という。
例)
住宅価格のデータを分析する場合、最高価格や最低価格などの極端な値が全体のばらつきを大きく見せることがあります。IQRを使うことで、異常に高額な住宅や異常に安価な住宅を排除し、実際の市場の中央値に基づいた価格変動を把握することができます。
範囲(レンジ)
範囲は、データの最大値と最小値の差を示す単純な指標です。
データ全体のばらつきの概略をつかむために使われます。範囲はデータの全体的なスケールを把握するのに役立ちますが、極端な値に敏感であるため、他の指標と組み合わせて使うことが多いです。
最大値を \(max\)、最小値を \(min\) とすると、\(max-min\) を範囲という。
例)
ある月の気温データが10℃から30℃までの範囲で変動していた場合、その範囲は30 – 10 = 20℃となります。このデータは、範囲が広いため、寒暖差が大きいことを示しますが、極端な低温や高温の影響を受ける可能性もあるため、さらに詳細なばらつき指標と併せて評価する必要があります。
変動係数(CV)
変動係数は、標準偏差を平均で割ったもので、相対的なばらつきを示します。
異なる単位のデータや、異なるスケールのデータを比較する際に便利です。
例)
ある商品の売上データと在庫データを比較するとします。売上は1ヶ月に数百万円、在庫は数十個単位で管理されている場合、単位が異なるため直接比較が難しいです。しかし、変動係数を使えば、どちらのデータが相対的にばらつきが大きいかを比較することが可能です。売上の変動が在庫の変動よりも大きいことが分かれば、在庫管理を見直す必要があるかもしれません。
偏差(データの歪み)
偏差は、データの非対称性を示す指標で、データが平均を中心に左右どちらかに偏っているかどうかを測定します。
データの分布が正規分布に近いかどうかを確認する際に使用されます。
例)
所得データは多くの場合、右に偏った分布(右偏)になります。多くの人が比較的低い所得を得ており、一部の高所得者が全体の平均を引き上げるためです。このような場合、平均値だけでなく、偏差を確認することでデータの分布の形を理解しやすくなります。
尖度(データの尖り)
尖度は、データの集中度や分布の尖り具合を示す指標です。
尖度が大きい場合、データは中央に集中しており、外れ値が少ないことを意味します。逆に、尖度が小さい場合は、外れ値が多くデータが広く分布していることを示します。
例)
製造業の品質管理において、製品の寸法のばらつきを管理する際に尖度を使います。寸法が規格内に収まっている場合、尖度が高くなり、品質が安定していることを示します。尖度が低い場合、規格外の製品が増える可能性があるため、品質管理体制の見直しが必要です。
まとめ
データのばらつきを測定するための指標は複数存在し、用途やデータの特性に応じて適切な指標を選ぶことが重要です。
分散や標準偏差は基本的なばらつきの指標として広く使われますが、異常値の影響を排除したい場合は四分位範囲、データのスケールを比較する場合は変動係数などを利用することが有効です。
また、偏差や尖度を使ってデータの分布形状や集中度を把握することで、データ全体の特性をより深く理解することができます。これらの指標を適切に使い分けることで、データ分析の精度を高め、より良い意思決定につなげることができるでしょう。
さいごまで読んでいただきありがとうございました!
【最新】こちらの記事がおすすめ!