メニュー
yu-to
管理者
本ブログを運営しているyu-toと申します。

高校数学の解説や公務員試験問題の解説、データサイエンスについての記事を書いていきます!

「データサイエンス×教育」に興味があり、日々勉学に励んでいます。

少しでも役に立つ情報の発信をしていきますのでぜひ読んでください。

また、同志からのお声がけはとても励みになります。ぜひ、コメントやメール、SNS等でご連絡ください!
カテゴリー
統計学初学者サポートこちらをクリック

【統計学の基礎】確率分布

目次

データアナリストへの道

少し数字に強い理系大学卒から駆け出しデータアナリストになるまでに、実際に読んだ50冊以上の本から厳選して、データ分析初学者向けにまとめました。基本的な理論から実践的スキルまで、データアナリストになるために必要なスキルを身につけられると思います。>>記事を読む

確率変数と確率分布

確率分布とは、ある確率変数が特定の値を取る確率の分布を表すものです。

\(6\) 面のサイコロを振る例を考えます。

この場合、サイコロの出目(\(1\) から \(6\) )が確率変数 \(X\) で表され、確率分布はそれぞれの出目に対して \(\frac{1}{6}\) ずつの確率が割り当てられる形になります。

\(P(X = 1) = \frac{1}{6}\)
\(P(X = 2) = \frac{1}{6}\)
\(P(X = 3) = \frac{1}{6}\)
\(P(X = 4) = \frac{1}{6}\)
\(P(X = 5) = \frac{1}{6}\)
\(P(X = 6) = \frac{1}{6}\)

スクロールできます
\(X\)\(1\)\(2\)\(3\)\(4\)\(5\)\(6\)
\(P(X)\)\(\frac{1}{6}\)\(\frac{1}{6}\)\(\frac{1}{6}\)\(\frac{1}{6}\)\(\frac{1}{6}\)\(\frac{1}{6}\)

確率分布の種類

確率分布は離散型と連続型に分けられ、それぞれで異なる形態の分布を持ちます。確率分布を理解することは、データの特徴を分析し、将来の結果を予測する上で重要です。

さらに、確率変数の期待値や分散を求めることで、平均的な傾向やばらつきを把握することが可能です。

本記事では、確率分布の基本的な概念と、期待値および分散の求め方について解説します。

離散型確率分布二項分布
ポアソン分布
幾何分布
負の二項分布
超幾何分布
多項分布
連続型確率分布正規分布
一様分布
指数分布
ガンマ分布
カイ二乗分布
\(t\) 分布
ベータ分布
ロジスティック分布

離散型確率分布

確率質量関数 (PMF)

離散型確率分布は、取る値が離散的な場合に使用されます。たとえば、サイコロの目やコインの裏表などがその例です。これらの確率分布を表すためには、確率質量関数 (Probability Mass Function, PMF)が使われ、各可能な値に対して、その値が発生する確率を表します。

期待値と分散の求め方

ある離散型確率変数 (\(X\)) が取る値を \(x_1, x_2, …, x_n\)、それに対応する確率を \(P(X = x_1), P(X = x_2), …, P(X = x_n)\) とします。期待値 \(E(X)\) は以下の式で求めます。

$$E(X) = \displaystyle\sum_{i=1}^{n} x_i \cdot P(X = x_i)$$

分散 \(Var(X)\) は期待値をもとに、以下の式で計算されます。

$$Var(X) = \displaystyle\sum_{i=1}^{n} (x_i – E(X))^2 \cdot P(X = x_i)$$

例)

例えば、サイコロの目を考えます。この場合、各目の出る確率は \(1/6\) です。サイコロの目を表す確率変数 \(X\) の期待値は次のように計算されます。

$$E(X) = 1 \cdot \displaystyle\frac{1}{6} + 2 \cdot \frac{1}{6} + … + 6 \cdot \frac{1}{6} = 3.5$$

次に、分散を計算します。まず各値の差 \(x_i – 3.5\) を二乗し、それぞれの確率で重みをつけて和を取ります。

Var(X) = (1 – 3.5)^2 \cdot \displaystyle\frac{1}{6} + … + (6 – 3.5)^2 \cdot \frac{1}{6} = 2.92

連続型確率分布

確率密度関数 (PDF)

連続型確率分布では、確率変数が取りうる値は連続的であり、具体的な点での確率は0になります。代わりに、確率密度関数 (Probability Density Function, PDF) が使われます。この関数の値は直接的な確率を示すものではなく、その積分が区間内の確率を表します。つまり、ある区間 ([a, b]) における確率は以下の式で計算されます。

$$P(a \leq X \leq b) = \displaystyle\int_a^b f(x) \, dx$$

期待値と分散の求め方

連続型確率変数 \(X\) の期待値 \(E(X)\) は、確率密度関数 \(f(x)\) を用いて以下の式で求められます。

$$E(X) = \displaystyle\int_{-\infty}^{\infty} x \cdot f(x) \, dx$$

分散 \(Var(X)\) は、期待値を基に以下のように計算されます。

$$Var(X) = \displaystyle\int_{-\infty}^{\infty} (x – E(X))^2 \cdot f(x) \, dx$$

正規分布を例に挙げます。正規分布の確率密度関数は次のように定義されます。

$$f(x) = \displaystyle\frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

ここで、\(\mu\) は平均、\(\sigma^2\) は分散を表します。正規分布に従う確率変数の期待値は \(\mu\)、分散は \(\sigma^2\) となります。これは、対称で広がりが分かりやすい分布であるため、多くの実世界の現象に適用されます。

具体的な確率分布の例

確率分布には、上記で説明した正規分布以外にもさまざまなものがあります。それぞれに特徴があり、用途に応じて使い分けられます。

  • 二項分布
    ある試行を独立して \(n\) 回繰り返し、そのうち特定の事象が成功する回数を表す分布です。コインの裏表や製品の不良率の分析に使われます。
  • ポアソン分布
    一定の時間や空間内で発生する事象の回数を表す分布です。電話のコールセンターにかかる電話の件数や交通事故の発生頻度などに適用されます。
  • 指数分布
    ある事象が発生するまでの時間間隔を表す分布で、待ち時間や寿命分析に使われます。

これらの分布も、期待値や分散を計算することができ、それぞれの分布の性質を理解する上で重要な指標となります。

まとめ

確率分布は、データがどのように散らばっているかを理解するための強力なツールです。

離散型確率分布と連続型確率分布の2つの主要な種類があり、それぞれに応じた期待値と分散を求めることで、データの平均的な傾向やばらつきの程度を把握できます。さまざまな確率分布を正しく使い分けることで、現実世界のデータをモデル化し、予測や意思決定に役立てることができます。

さいごまで読んでいただきありがとうございました!

このブログは統計学を学びたい学生/社会人向けに記事を書いています。

【最新】こちらの記事がおすすめ!

>>

  • URLをコピーしました!
目次