「階層的クラスタリング」の「最短距離法（Single Linkage Method）」とは？初学者の方でもわかりやすいようにまとめました

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

第８回『「距離行列」とは？データ分析手法全般でよく使う「類似度」の扱いをシッカリ学びたいあなたはこちらをどうぞ』

本記事の概要

クラスター分析でわかること

（前回までの復習をかねているので、わかる方は読み飛ばしてください）

「クラスター分析」というのは、バラバラでよくわからないものを、

似ているものは同じグループに、似ていないものは違うグループに分けることをいいます。

「グループ分け」することで、よくわからないものが、わりと分かりやすい感じになります。

たとえば、

タイトルも目次もない、順序もバラバラの本の原稿用紙を大量に受け取っても、その中身が何なのか理解するのは大変だと思います。

でももしも、タイトルや目次がついていたり、文章の構成が前もって分かっていれば、中身の概要はつかめるはずです。

この目次や文章の構成というのは、原稿用紙全体をグループ分けしているわけです。

バラバラの内容もグルーピングすることで、中身が理解しやすくなります。

テキストマイニングでのクラスター分析も、大量の文書の内容が、おおよそどんなものかをグループ分けすることで理解したり、また、どんなグループから構成されているかなど知りたいときにも役に立ちます。

大量の文書をクラスター分析すると、その結果からたとえば、”政治”、”食べ物”、”コンピュータ”関係の内容の文書が含まれている、といったことがわかるかもしれません。

さらに、食べ物のグループ内を細かく調べたければ、食べ物関係の文書のクラスター分析結果を注目すればいいわけです。

そうすると、食べ物は食べ物でも、”パン”や”果物”についての内容が多く、ごはんや味噌・醤油に関係するものは少ない、といったように、さらに細かい内容を把握することができるわけです。

へぇ〜　クラスター分析ってとっても便利なんだね！

と思ってもらえたのではないでしょうか＾＾

「階層的クラスタリング」とは？

「クラスター分析（クラスタリング）」には、階層的・非階層的なものがありました。（今回は非階層的なものは扱わず、今後の連載でご紹介する予定です）

また、「階層的クラスタリング」には、以下の２つの考え方がありました。

１つは、最初に全データを１つのクラスターと考えて、これを分割することでクラスターに分ける方法
２つめは、各データそれぞれを１つのクラスターと最初考えて、クラスター同士をくっつけることで、大きなクラスターにまとめていくという方法

今回は、後者の中の方法の中の１つである「最短距離法」についてご紹介します。

クラスター分析の一番シンプルな例で、

他のクラスター分析の基礎となりますので、

その考え方もサクッと理解してもらえたら後の理解も加速するかと思います。

「クラスター分析のやり方」とは？

まず、クラスター分析の具体的なやり方についてですが、

大きく３つのステップで行われます。

①、データを素性ベクトルに変換する

②、素性ベクトル同士の類似度を計算する

③、類似度に基づいてクラスター分析する

①は、前々回までに本連載で数回にわたって詳しく説明してきました。

②は、前回の記事で、類似度と距離行列の関係や距離行列の特徴などをご紹介しました。

今回は、②で説明した距離行列から③のクラスター分析を行う部分をご紹介します＾＾

データは、どう、グループ化するの？

今回は、クラスター分析したいデータ全体をたくさんの文書の集合と考えることにします。

また、クラスター分析のスタートは、すべての各文書１つ１つを１つのクラスター（グループ）とみなすところから始めてみます。

今回のクラスター分析は、小さいクラスターをくっつけていって大きくしていくイメージになります。

このとき、各文書の特徴は「素性ベクトル」で記述されていて、

文書同士の類似度は、素性ベクトル同士の「類似度」で計算され、「距離行列」に保存されているとします。

たとえば、４つの文書のクラスター分析を考えてみましょう。

このとき距離行列Dが、

D = (

	文書１	文書２	文書３	文書４
文書１	０
文書２	3.6	０
文書３	5.7	8.4	０
文書４	6.5	7.3	9.1	０

)

のような下三角行列で表現されているとします。

あれ、上半分に値がないじゃない！

と思われた方もおられるかもしれませんが、距離行列は対称行列なので、上半分は下半分を対角項を軸に折り返した（転置した）値となっています。

もし？？って方は、こちらの記事に詳しく説明があります↓

距離行列中の成分3.6は、２行１列の要素で、文書２と文書１の類似度を表現しています。他の要素も同じ意味です。

これを踏まえて、まず最初にどの文書と文書をクラスターにしたらいいでしょうか？

実はこの考え方の違いで、階層的クラスタリングにはいくつかのアルゴリズムがあるわけなんんです。

またその方法の違いによって、そのクラスタリングに適したデータとか適してないデータがあったりします。

今回は、「最短距離法（Single Linkage Method）」と呼ばれる方法を、初めて聞いた方でもわかるよう、できるだけわかりやすく説明したいと思います。

この先は会員限定になります。

会員の方はログインをお願いいたします。

登録がまだの方は、会員登録をお願いします。

>>> 会員登録はこちら

「クラスター分析（クラスタリング）記事一覧はこちら」

↓こちら無料で読めます

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

画像処理入門　速習二値化: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　4番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)