相関係数の覚え方
今回は、データの分析『相関係数』についてまとめました。
相関係数は、データの分析の後半に出てくる公式で、数学の公式の中だとトップクラスに複雑です…
変数 \(x\), \(y\) の相関係数を求めたいとする。
\((相関係数)=\displaystyle\frac{(xとyの共分散)}{(xの標準偏差)\times (yの標準偏差)}\)
しかし、仕組みを理解していれば少しだけ覚えるのが楽になるかもしれません!
さらに、この公式を覚えていなくても解ける問題もたくさんあります!今回の記事を通して公式を覚えるだけでなく他にも大切なことがあることを知ってもらえたらと思います!
相関係数とは
\(2\) つの事柄を、\(x\), \(y\) とおくと、関係性には、\(3\) 種類あります。
① 正の相関
\(x\) が増えると、\(y\) も増える。かつ、\(x\) が減ると、\(y\) も減る。
このとき、「\(2\) つの事柄は正の相関がある。」という。
② 負の相関
\(x\) が増えると、\(y\) は減る。かつ、\(x\) が減ると、\(y\) は増える。
このとき、「\(2\) つの事柄は負の相関がある。」という。
③ 相関なし
「 \(x\) と \(y\) に相関はない。」という。
関係性の3つの種類を述べましたが、それだけでなく、それぞれどのくらいの関係性なのか?というのを数値で表すことでより具体的に関係性の強さを比べることができます!
相関係数の計算
\(2\) つのデータ \(x\) と \(y\) に対する相関係数の計算方法をまとめました。
こんな感じで、最初のうちは日本語を交えてざっくりと覚えておきましょう!
\(x\):\(x_1\), \(x_2\), \(\cdots\), \(x_n\)
\(y\):\(y_1\), \(y_2\), \(\cdots\), \(y_n\)
\(\bar{x}\):\(x\) の平均
\(\bar{y}\):\(y\) の平均
\(S_x\):\(x\) の標準偏差
\(S_y\):\(y\) の標準偏差
\(S_{xy}\):\(x\) と \(y\) の共分散
ここら辺の文字設定は、問題文に用意されていたり、文字ではなく数値を入れる場合もあります!
このとき、相関係数 \(r\) は、
\(r=\displaystyle\frac{S_{xy}}{S_x\cdot S_y}\)
細かく書いてみると、
\(r=\displaystyle\frac{\displaystyle\frac{1}{n}\cdot \{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})\} }{\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots (x_n-\bar{x})^2\}\cdot\displaystyle\frac{1}{n} \{(y_1-\bar{y})^2+(y_2-\bar{y})^2+\cdots (y_n-\bar{y})^2\}}\)
\(r\) は、\(-1\leq r \leq 1\) の範囲の値になり、これらの値は散布図とリンクさせて出題されることがあります。
相関係数の計算(例題)
次の表は、学生 \(5\) 名の身長 \(x\) (cm) と体重 \(y\) (kg) を測定した結果である。 \(x\) と \(y\) の相関係数 \(r\) を求めよ。
A | B | C | D | E | |
身長 \(x\) (cm) | 181 | 167 | 173 | 169 | 165 |
体重 \(y\) (kg) | 75 | 59 | 63 | 67 | 61 |
(解説)
\(x\), \(y\) のデータの平均をそれぞれ \(\overline{x}\), \(\overline{y}\) とすると、
\(\overline{x}=\displaystyle\frac{1}{5}(181+167+173+169+165)\)
\(=171\)
\(\overline{y}=\displaystyle\frac{1}{5}(75+59+63+67+61)\)
\(=65\)
公式はこちらなので、
\(r=\displaystyle\frac{\displaystyle\frac{1}{n}\cdot \{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})\} }{\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots (x_n-\bar{x})^2\}\cdot\displaystyle\frac{1}{n} \{(y_1-\bar{y})^2+(y_2-\bar{y})^2+\cdots (y_n-\bar{y})^2\}}\)
必要なパーツを表でまとめます!
\(x-\overline{x}\) | \(y-\overline{y}\) | \((x-\overline{x})^2\) | \((y-\overline{y})^2\) | \((x-\overline{x})(y-\overline{y})\) | |
A | \(10\) | \(10\) | \(100\) | \(100\) | \(100\) |
B | \(-4\) | \(-6\) | \(16\) | \(36\) | \(24\) |
C | \(2\) | \(-2\) | \(4\) | \(4\) | \(-4\) |
D | \(-2\) | \(2\) | \(4\) | \(4\) | \(-4\) |
E | \(-6\) | \(-4\) | \(36\) | \(16\) | \(24\) |
計 | 160 | 160 | 140 |
よって、相関係数 \(r\) は、
\(r=\displaystyle\frac{140}{\sqrt{160\times 160}}=\frac{140}{160}=0.875\)
散布図と相関係数
あるクラスの \(10\) 人の数学のテストについて、テストまでの勉強時間を横軸、テストの点数を縦軸と仮定した時の散布図を描いてみると、
例①)正の相関
【解釈】 時間をかければかけた分だけ、テストの点数が高い。
例②)負の相関
【解釈】 時間をかければかけた分だけ、テストの点数が低い。
例③)相関なし
【解釈】 時間とテストの点数になにも関係はない。
このように、\(2\) つの事柄の点を集めてみると、\(2\) つの事柄の関係性を見ることができます。
今回の散布図に関しては、例①)が直感的に正しい気がしませんか?
>>詳細はこちらから
学習手順〜公式を覚えることが重要ではない!〜
① 正の相関
② 負の相関
③ 相関なし
\(r\) が \(1\) に近いほど、「正の相関が強い」
\(r\) が \(-1\) に近いほど、「負の相関が強い」
\(r\) が \(0\) に近いほど、「相関がない」
日本語も交えながらざっくりと知りましょう!
数字を当てはめて計算できるようになる!
おわりに
今回は、相関係数について押さえたいポイントをまとめました。
相関係数は、\(2\) つの変数を分析するときに使われる統計手法です。大学進学後も、理系大学、文系大学関わらず度々扱うことになりますのでしっかりと理解しておきましょう〜!
さいごまで読んでいただきありがとうございました!
【最新】こちらの記事がおすすめ!