「距離行列」とは?データ分析手法全般でよく使う「類似度」について学びたいあなたはこちらをどうぞ

距離行列 クラスター分析 クラスタリング distance matrix 階層的クラスタリング アルゴリズム 2 アルゴリズム

前回は、クラスター分析のやり方について3つのポイントでまとめました↓

第7回『「クラスター分析」ってどうやるの?クラスター分析のやり方、具体的な3つのステップはこちらです

 

今回は、クラスター分析のやり方の2番目をさらに掘り下げようと思います。3番目のステップの下準備でもあります。

 

 

本記事の概要

「クラスター分析」のやり方ってどうだったっけ?

まず、忘れてしまった方もおられるかもしれませんので、

クラスター分析の具体的なやり方について、サクッと復習しますね。

 

大きく3つのステップで行われます。

①、データを素性ベクトルに変換する

②、素性ベクトル同士の類似度を計算する

③、類似度に基づいてクラスター分析する

 

①については、本連載で数回にわたって詳しく説明してきました。(過去記事は下にあります)

今回は、②の素性ベクトルを使って、類似度を計算するところを詳しく説明したいと思います。

 

 

 

 

 

 

「類似度」は、どう求めるの?

 

今日は素性ベクトルは作ったから、次はどうするの?って話なんですが、

上で説明したように、「類似度を計算」するよ、ってことなんです。

 

これをもう少し具体的にみてみましょう。

 

素性ベクトルは、複数の数値の配列として表現されていました。

(そうだっけ?という方は、本連載の過去記事をご覧ください。下にリンクがございます^^)

 

素性ベクトルは、たとえば、

(5, 2, 3, 7)

といった感じです。(実際は要素4つでなくもっと膨大な数です)

 

素性ベクトルの類似度は、コサイン類似度を使うことにしました。

コサイン類似度は以下の計算式で求められます。

いま類似度を求めたい2つの素性ベクトルを、v1, v2とすると、

(コサイン類似度) = (v1・v2)/ { (v1の大きさ) * (v2の大きさ) }

として求めることとします。

 

ちなみに、内積はたとえば以下のように

(1, 3, 5) ・ (2, 4, 6) = 1*2 + 3*4 + 5*6 = 2 + 12 + 30 = 44

という感じで1つの値になります。

なので、2つの素性ベクトルのコサイン類似度は1つの値になる、ということがわかるかと思います。

 

スッキリ!

 

 

クラスター分析のやり方に戻りますが、

②、素性ベクトルから類似度を計算

では、上の説明の通りに内積の計算をすればオッケーです。

 

類似度を計算したら、次の③ステップのために、

類似度を整理して保存しておく

必要があるんです。

それが次のポイントになります。

 

 

 

 

 

 

クラスター分析で重要な「距離行列」とは?

距離行列ってなに?って思われた方もおられるかと思いますが、

まずは簡単な例から説明していきます。

 

 

この先は会員限定になります。

会員の方はログインをお願いいたします。

登録がまだの方は、会員登録をお願いします。

>>> 会員登録はこちら

 

 

クラスター分析(クラスタリング)記事一覧はこちら

 

↓こちら無料で読めます

 

コンテンツの残りを閲覧するにはログインが必要です。 お願い . あなたは会員ですか ? 会員について