前回は、クラスター分析のやり方について3つのポイントでまとめました↓
第7回『「クラスター分析」ってどうやるの?クラスター分析のやり方、具体的な3つのステップはこちらです』
今回は、クラスター分析のやり方の2番目をさらに掘り下げようと思います。3番目のステップの下準備でもあります。
本記事の概要
「クラスター分析」のやり方ってどうだったっけ?
まず、忘れてしまった方もおられるかもしれませんので、
クラスター分析の具体的なやり方について、サクッと復習しますね。
大きく3つのステップで行われます。
①、データを素性ベクトルに変換する
②、素性ベクトル同士の類似度を計算する
③、類似度に基づいてクラスター分析する
①については、本連載で数回にわたって詳しく説明してきました。(過去記事は下にあります)
今回は、②の素性ベクトルを使って、類似度を計算するところを詳しく説明したいと思います。
「類似度」は、どう求めるの?
今日は素性ベクトルは作ったから、次はどうするの?って話なんですが、
上で説明したように、「類似度を計算」するよ、ってことなんです。
これをもう少し具体的にみてみましょう。
素性ベクトルは、複数の数値の配列として表現されていました。
(そうだっけ?という方は、本連載の過去記事をご覧ください。下にリンクがございます^^)
素性ベクトルは、たとえば、
(5, 2, 3, 7)
といった感じです。(実際は要素4つでなくもっと膨大な数です)
素性ベクトルの類似度は、コサイン類似度を使うことにしました。
コサイン類似度は以下の計算式で求められます。
いま類似度を求めたい2つの素性ベクトルを、v1, v2とすると、
(コサイン類似度) = (v1・v2)/ { (v1の大きさ) * (v2の大きさ) }
として求めることとします。
ちなみに、内積はたとえば以下のように
(1, 3, 5) ・ (2, 4, 6) = 1*2 + 3*4 + 5*6 = 2 + 12 + 30 = 44
という感じで1つの値になります。
なので、2つの素性ベクトルのコサイン類似度は1つの値になる、ということがわかるかと思います。
スッキリ!
クラスター分析のやり方に戻りますが、
②、素性ベクトルから類似度を計算
では、上の説明の通りに内積の計算をすればオッケーです。
類似度を計算したら、次の③ステップのために、
類似度を整理して保存しておく
必要があるんです。
それが次のポイントになります。
クラスター分析で重要な「距離行列」とは?
距離行列ってなに?って思われた方もおられるかと思いますが、
まずは簡単な例から説明していきます。
この先は会員限定になります。
会員の方はログインをお願いいたします。
登録がまだの方は、会員登録をお願いします。
>>> 会員登録はこちら
↓こちら無料で読めます