階層的クラスター分析の「ウォード法(Ward法)」とは?そのクラスタリング・アルゴリズムなど分かりやすくまとめました

ウォード法 Ward method クラスタリング クラスター分析 わかりやすい 解説 アルゴリズム 2 クラスタリング

前回は、クラスター分析でよく使う「完全連結法」という階層的クラスタリングの手法についてまとめました↓

第10回『「階層的クラスタリング」の「完全連結法(Complete Linkage Method)」とは?初学者の方でも、わかりやすいようにまとめました

 

クラスター分析にはいろいろ種類があるのですが、

その中の「階層的クラスタリング」と呼ばれる、

基本的なクラスター分析のやり方をご紹介します。

 

階層的クラスタリングの中にもさまざまなアルゴリズムがあり、

今回はその中1つの

ウォード法(Ward Method)

をご紹介したいと思います。

 

 

 

本記事の概要

「クラスター分析のやり方」とは?

まず、クラスター分析の具体的なやり方についてですが、

大きく3つのステップで行われます。

 

①、データを素性ベクトルに変換する

②、素性ベクトル同士の類似度を計算する

③、類似度に基づいてクラスター分析する

 

①, ②は、前々回までに本連載で数回にわたって詳しく説明してきました。

(過去記事は、本記事の下にリンクがあります)

 

今回は、②、③のクラスター分析を行う部分をご紹介します

 

 

 

 

 

 

データは、どう、グループ化するの?

今回は、クラスター分析したいデータ全体をたくさんの文書の集合と考えることにします。

また、クラスター分析のスタートは、すべての各文書1つ1つを1つのクラスター(グループ)とみなすところから始めてみます。

今回のクラスター分析は、小さいクラスターをくっつけていって大きくしていくイメージになります。

 

具体的には、以下のデータを考えてみます。

変数1変数2
文書A
文書B
文書C
文書D

各文書A〜Dの特徴が、「素性ベクトル」として各行に書かれています。

各列には文書の特徴を表現した変数がまとめられます。たとえば単語の頻度などがあります。

 

今回はこれらの文書 A〜Dを「ウォード法(Ward法)」によって、クラスター分析してみます。

 

ウォード法のクラスタリング・アルゴリズムとは?

ウォード法では、偏差平方和(へんさへいほうわ)に基づいてクラスタリングしていきます。

偏差とは、平均値との差のことです。

ウォード法のアルゴリズムは、以下のステップで進みます。

 

 

この先は会員限定になります。

会員の方はログインをお願いいたします。

登録がまだの方は、会員登録をお願いします。

>>> 会員登録はこちら

 

 

クラスター分析(クラスタリング)記事一覧はこちら

 

↓こちら無料で読めます

 

コンテンツの残りを閲覧するにはログインが必要です。 お願い . あなたは会員ですか ? 会員について