前回は、クラスター分析でよく使う「完全連結法」という階層的クラスタリングの手法についてまとめました↓
第10回『「階層的クラスタリング」の「完全連結法(Complete Linkage Method)」とは?初学者の方でも、わかりやすいようにまとめました』
クラスター分析にはいろいろ種類があるのですが、
その中の「階層的クラスタリング」と呼ばれる、
基本的なクラスター分析のやり方をご紹介します。
階層的クラスタリングの中にもさまざまなアルゴリズムがあり、
今回はその中1つの
「ウォード法(Ward Method)」
をご紹介したいと思います。
本記事の概要
「クラスター分析のやり方」とは?
まず、クラスター分析の具体的なやり方についてですが、
大きく3つのステップで行われます。
①、データを素性ベクトルに変換する
②、素性ベクトル同士の類似度を計算する
③、類似度に基づいてクラスター分析する
①, ②は、前々回までに本連載で数回にわたって詳しく説明してきました。
(過去記事は、本記事の下にリンクがあります)
今回は、②、③のクラスター分析を行う部分をご紹介します
データは、どう、グループ化するの?
今回は、クラスター分析したいデータ全体をたくさんの文書の集合と考えることにします。
また、クラスター分析のスタートは、すべての各文書1つ1つを1つのクラスター(グループ)とみなすところから始めてみます。
今回のクラスター分析は、小さいクラスターをくっつけていって大きくしていくイメージになります。
具体的には、以下のデータを考えてみます。
変数1 | 変数2 | |
文書A | 4 | 6 |
文書B | 2 | 7 |
文書C | 8 | 4 |
文書D | 4 | 1 |
各文書A〜Dの特徴が、「素性ベクトル」として各行に書かれています。
各列には文書の特徴を表現した変数がまとめられます。たとえば単語の頻度などがあります。
今回はこれらの文書 A〜Dを「ウォード法(Ward法)」によって、クラスター分析してみます。
ウォード法のクラスタリング・アルゴリズムとは?
ウォード法では、偏差平方和(へんさへいほうわ)に基づいてクラスタリングしていきます。
偏差とは、平均値との差のことです。
ウォード法のアルゴリズムは、以下のステップで進みます。
この先は会員限定になります。
会員の方はログインをお願いいたします。
登録がまだの方は、会員登録をお願いします。
>>> 会員登録はこちら
↓こちら無料で読めます