メニュー
yu-to
管理者
本ブログを運営しているyu-toと申します。

高校数学の解説や公務員試験問題の解説、データサイエンスについての記事を書いていきます!

「データサイエンス×教育」に興味があり、日々勉学に励んでいます。

少しでも役に立つ情報の発信をしていきますのでぜひ読んでください。

また、同志からのお声がけはとても励みになります。ぜひ、コメントやメール、SNS等でご連絡ください!
カテゴリー
無料相談こちらをクリック

【統計学の基礎】代表値

  • URLをコピーしました!

統計学を約10年勉強しています。
現在は、統計スキルを自身のキャリアに活用してきた方法をブログで発信しています。

  • 大学の研究テーマ「主成分分析を使った正しい評価方法」

  • 大学院の研究テーマ「階層的区間クラスタリング」

  • 統計検定2級所持

  • Kaggleのコンペに参加

統計学を約10年勉強しています。
現在は統計スキルを自身のキャリアに活用してきた方法をブログで発信しています。

  • 大学の研究テーマ「主成分分析を使った正しい評価方法」

  • 大学院の研究テーマ「階層的区間クラスタリング」

  • 統計検定2級所持

  • Kaggleのコンペに参加

目次

代表値

統計学における代表値は、データセット全体を簡潔に要約するための指標であり、データの中心的な傾向や分布の特徴を示します。

代表値の中でも特に重要なのは、平均値(Mean)、中央値(Median)、最頻値(Mode)の3つです。それぞれの定義、関係性、そして例題を含めて解説します。

平均値 (Mean)

定義

平均値は、データセット内の全ての値の合計をデータの個数で割った値です。全体の傾向を最もよく表す指標の一つであり、データが全体としてどの程度の大きさかを示します。

\(\text{平均値}=\frac{\sum_{i=1}^{n} x_i}{n}\)

ここで、 \(x_i\) は各データの値、 \(n\) はデータの個数です。

例:データセットが \(3, 5, 7, 9, 11\) の場合、平均値は次のように計算されます。

\(\text{平均値} = \frac{3 + 5 + 7 + 9 + 11}{5} = \frac{35}{5} = 7\)

特徴:平均値はデータの全体的な傾向を反映しますが、極端に大きい値や小さい値(外れ値)によって影響を受けやすいという欠点があります。

中央値 (Median)

定義

中央値は、データセットを昇順または降順に並べたとき、中央に位置する値です。データの個数が偶数の場合、中央の2つの値の平均を取ります。

データを昇順に並べた後、データ数が奇数の場合は中央の値、偶数の場合は中央の2つの値の平均を取ります。

例:データセットが \(3, 5, 7, 9, 11\) の場合、中央値は \(7\) です。
もしデータセットが \(3, 5, 7, 9\) であれば、中央の2つの値(\(5\) と \(7\))の平均値である \(6\) が中央値になります。

特徴:中央値は外れ値の影響を受けにくく、特に非対称な分布や極端な外れ値を含むデータセットの場合に有用です。

最頻値 (Mode)

定義

最頻値は、データセット内で最も頻繁に現れる値です。同じ値が複数回出現する場合にその値が最頻値となります。

例:データセットが \(3, 5, 7, 7, 9\) の場合、最頻値は \(7\) です。
データセットが \(3, 5, 5, 7, 7, 9\) の場合、最頻値は \(5\) と \(7\) の二つになります。

特徴:最頻値はデータセットの中で最も一般的な値を示しますが、データが均等に分散している場合、最頻値が存在しないか、複数の最頻値が存在することもあります。

代表値の関係性と適用例

代表値の関係性

平均値、中央値、最頻値は、データセットの分布に応じて異なる情報を提供します。

例えば、正規分布の場合、これらの値は近似的に一致します。下の図のように正規分布は左右対象に分布しているため

平均値 = 中央値 = 最頻値となります。

一方で、データが偏っている(歪んでいる)場合、これらの値は大きく異なることがあります。

・右に歪んだ分布: 最頻値 < 中央値 < 平均値
・左に歪んだ分布: 平均値 < 中央値 < 最頻値

適用例:

・平均値は一般的にデータ全体の傾向を知りたいときに有用ですが、外れ値の影響を受けやすいです。
・中央値は住宅価格や所得分布のように、極端な値が存在するデータセットに対して有効です。
・最頻値はカテゴリー型データ(例: 投票結果、人気商品)に対して適用され、どのカテゴリーが最も一般的かを示すために使用されます。

まとめ

代表値は、データセットの全体像を把握するための重要な指標です。

平均値はデータの中心的傾向を示し、中央値はデータの中間点を表し、最頻値は最もよく現れる値を示します。

これらの指標はデータの特性に応じて使い分けることで、より正確なデータ分析が可能となります。

さいごまで読んでいただきありがとうございました!

このブログでは、統計スキルを身につけたいけど数学があまり得意ではないという方向けに、
高校数学から統計学の実践まで様々な記事を収録しています!

統計スキル習得のスタート地点

第一部 データの性質に関する基礎知識
観測は簡単ではない/誤差とばらつき/データに含まれるバイアス/交絡因子と因果関係/データサンプリングの方法論

第二部 データの分析に関する基礎知識
データの扱い/一変数データの振る舞い/変数の間の関係を調べる/多変量データの解釈する/数理モデリングの要点

第三部 データの解釈・活用に関する基礎知識
データ分析の罠/データ解釈の罠/データ活用の罠

数学っぽい説明はあまり多くなく、普段仕事とかで目にするデータの見方を変えてくれる良書です。
ぜひ読んでみてください!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

質問や感想はコメントへ!

コメントする

目次