【統計学の応用】階層的クラスタリング

URLをコピーしました！

クラスタリングとは
クラスタリングを考える上で重要な 3 つの事柄
1. 個体間の類似度
2. 算法（アルゴリズム）
最短距離法の数値例
おわりに

クラスタリングとは

クラスタリングとは、ある集合を非類似度に従って、部分集合（クラスター）に分けることです。

「非類似度」とは、どれくらい似ているか（似ていないか）ということです！

非類似度の定義の仕方は様々です。

数学的な説明は後述しますが、例えば、以下のような図形の集合があったとしましょう。

「形」を基準にすると、

「色」を基準にすると、

このように、分けるための基準を非類似度、あるいは類似度や単に距離と呼ぶこともあります。

クラスタリングは大きく $2$ つに分けられます。

・階層的手法
樹形図によって表現されるような、集団の系統発生的な構造をさぐることによってクラスターを構成しようとするものです。各個体を $1$ つのクラスターとして、ある基準に従って結合していく凝集型と分類すべき集合を $1$ つのクラスターとしてある基準に従って分裂していく分裂型の $2$ つに大別される。

・非階層的手法
クラスターの妥当性の基準として、クラスター内の変動をできるだけ小さくし、クラスター間の変動をできるだけ大きくしようとし、あらかじめクラスター数が決まっているような手法です。

クラスタリングを考える上で重要な $3$ つの事柄

・個体間の類似度/非類似度
・算法（アルゴリズム）
・評価

個体間の類似度

扱うデータによって、類似度（距離）の定義は様々ですが、一般的には以下の $3$ つが挙げられます。

ある個体を、 $x = (x_{1}$ ,　 $x_{2})$ と $y = (y_{1}$ ,　 $y_{2})$ とすると、

$L_{1}$ 距離（直角距離）

　 $D (x, y) = | x_{1} - y_{1} | + | x_{2} - y_{2} |$

$L_{2}$ 距離（ユークリッド距離）

　 $D (x, y) = \sqrt{(x_{1} - y_{1})^{2} + (x_{2} - y_{2})^{2}}$

$L_{\infty}$ 距離（チェビシェフ距離）

　 $D (x, y) = max {| x_{1} - y_{1} |$ ,　 $| x_{2} - y_{2} |}$

$l_{2}$ 距離（ユークリッド距離）は中学で学ぶ一番馴染み深い距離かなと思います。

このように、扱うデータによって様々な距離が存在しています！

算法（アルゴリズム）

アルゴリズムも距離と同様に扱うデータによって様々あります。階層的手法を扱う際の一般的なアルゴリズムは以下の $3$ つです。

① 最短距離法
② 最長距離法
③ 郡平均法

以下、最短距離法の手順を説明します。

STEP

個々の個体をクラスターとする

個体 $1$ つを含むクラスターとして考える。

STEP

距離最小の組み合わせ

各クラスター間（固体間）の距離を算出し、一番距離が小さい組み合わせを見つける。

STEP

結合

距離最小の組み合わせを結合し新しいクラスターを作る。

STEP

繰り返し

STEP2, STEP3 を必要な回数繰り返す。

最短距離法の数値例

個体をそれぞれ

　 $x_{1} = 8$ ,　 $x_{2} = 7$ ,　 $x_{3} = 2$ ,　 $x_{4} = 13$ ,　 $x_{5} = 11$

とする。まず個々の個体をクラスターとするので

　 $G_{1} = {x_{1}}$ ,　 $G_{2} = {x_{2}}$ ,　 $G_{3} = {x_{3}}$ ,　 $G_{4} = {x_{4}}$ ,　 $G_{5} = {x_{5}}$

としたとき、各クラスター間の $L_{1}$ 距離を算出する。

STEP１　

　 $D (G_{1}$ ,　 $G_{2}) = 1$
　 $D (G_{1}$ ,　 $G_{3}) = 6$
　 $D (G_{1}$ ,　 $G_{4}) = 5$
　 $D (G_{1}$ ,　 $G_{5}) = 3$
　 $D (G_{2}$ ,　 $G_{3}) = 5$
　 $D (G_{2}$ ,　 $G_{4}) = 6$
　 $D (G_{2}$ ,　 $G_{5}) = 4$
　 $D (G_{3}$ ,　 $G_{4}) = 11$
　 $D (G_{3}$ ,　 $G_{5}) = 9$
　 $D (G_{4}$ ,　 $G_{5}) = 2$

となるので、距離が一番小さいのは $D (G_{1}$ ,　 $G_{2}) = 1$ となり、 $G_{1}$ と $G_{2}$ が結合し新たに $G_{1}^{'}$ が生成される。

　 $G_{1}^{'} = {x_{1}$ ,　 $x_{2}}$ ,　 $G_{2} = {x_{3}}$ ,　 $G_{3} = {x_{4}}$ ,　 $G_{4} = {x_{5}}$

ここで、複数の個体を持つ $G_{1}$ と他の個体との距離の計算方法として郡平均法を用いる。

$G_{1}^{'}$ の個体数を $n^{'}$ ,　結合前の $G_{1}$ の個体数を $n_{1}$ ,　 $G_{2}$ の個体数を $n_{2}$ とするとき、

　 $D (G_{1}^{'}, G_{2}) = \frac{n_{1}}{n^{'}} D (G_{1}^{'}, G_{1}) + \frac{n_{2}}{n^{'}} D (G_{1}^{'}, G_{2})$

のように計算する。　　

STEP２

　 $D (G_{1}^{'}$ ,　 $G_{2}) = \frac{11}{2}$
　 $D (G_{1}^{'}$ ,　 $G_{3}) = \frac{11}{2}$
　 $D (G_{1}^{'}$ ,　 $G_{4}) = \frac{7}{2}$
　 $D (G_{2}$ ,　 $G_{3}) = 11$
　 $D (G_{2}$ ,　 $G_{4}) = 9$
　 $D (G_{3}$ ,　 $G_{4}) = 2$

となるので、距離が一番小さいのは $D (G_{3}$ ,　 $G_{4}) = 2$ となり、 $G_{3}$ と $G_{4}$ が結合し新たに $G_{2}^{'}$ が生成される。

　 $G_{1}^{'} = {x_{1}$ ,　 $x_{2}}$ ,　 $G_{2} = {x_{3}}$ ,　 $G_{3}^{'} = {x_{4}$ ,　 $x_{5}}$

STEP３　

　 $D (G_{1}^{'}$ ,　 $G_{2}) = \frac{11}{2}$
　 $D (G_{1}^{'}$ ,　 $G_{3}^{'}) = \frac{9}{2}$
　 $D (G_{2}$ ,　 $G_{3}^{'}) = 10$

となるので、距離が一番小さいのは $D (G_{1}^{'}$ ,　 $G_{3}^{'}) = \frac{9}{2}$ となり、 $G_{1}^{'}$ と $G_{3}^{'}$ が結合し新たに $G ”_{1}$ が生成される。

　 $G ”_{1} = {x_{1}$ ,　 $x_{2}$ ,　 $x_{4}$ ,　 $x_{5}}$ ,　 $G_{2} = {x_{3}}$

STEP４

　 $D (G ”_{1}$ ,　 $G_{2}) = \frac{31}{4}$

となり $G ”_{1}$ と $G_{2}$ が結合する。

以上の計算をもとに樹形図を作成します。

STEP1での樹形図はこちら

STEP2での樹形図はこちら

STEP3での樹形図はこちら

下図のように、例えば高さ3のところで切ってあげると、

　 $G_{1} = {1$ ,　 $2}$ ,　 $G_{2} = {4$ ,　 $5}$ ,　 $G_{3} = {3}$

のように3つのクラスターに分類される。

得たい情報によって評価方法は異なります。

おわりに

さいごまで読んでいただきありがとうございました！

『統計の扉』で書いている記事

高校数学の解説
公務員試験の数学
統計学（統計検定2級レベル）

ぜひご覧ください！

数学でお困りの方は、コメントやXでご連絡ください。（Xはこちら）

私自身、数学が得意になれたのはただ運が良かったんだと思っています。たまたま親が通塾させることに積極的だったり、友達が入るって理由でそろばんに入れたり、他の科目が壊滅的だったおかげで数学が(相対的に)得意だと勘違いできたり。

”たまたま”得意になれたこの恩を、今数学の学習に困っている人に還元できたらなと思っています。お金は取りません。できる限り(何百人から連絡が来たら難しいかもですが…)真摯に向き合おうと思っていますのでオアシスだと思ってご連絡ください。

URLをコピーしました！

【統計学の応用】階層的クラスタリング

クラスタリングとは

クラスタリングを考える上で重要な 3 つの事柄

個体間の類似度

算法（アルゴリズム）

最短距離法の数値例

おわりに

クラスタリングを考える上で重要な $3$ つの事柄