「クラスター分析(クラスタリング)」は、似ているもの同士をまとめて、グループ(クラスターと呼びます)にする手法の総称です。
クラスタリングには、階層的なものや非階層的なもの、確率分布を用いたものなど、様々な手法があり、それぞれに長所と短所があります。
データ分析を行うときには、まずデータの特徴を調べてみるという探索的データ分析がありますが、クラスタリングは、その時に力を発揮する手法の1つです。
他にも、多くのデータを収集したら、それをグループ分けし、整理整頓することで、データの構造がみえてきます。こういった場合にもクラスタリングが有効な手段の1つになります。
クラスタリングとは?という方
クラスタリングをサクッとできるようになりたい方
クラスタリングを詳しく学びたいあなた
もおられるかと思います。
そこで本記事では、「クラスター分析(クラスタリング)」を学びたいあなたにチェックしてほしい良書、(とりあえずの)6冊をご紹介します。
本記事の概要
「クラスター分析(クラスタリング)」を学びたいあなたにチェックしてほしい良書、6冊はこちらです
1冊目はこちら【クラスター分析の手順が1つ1つわかりやすく解説された1冊】
入門はじめての多変量解析
本書は、クラスター分析(クラスタリング)について、基礎の基礎から丁寧に解説されています。
まずクラスターとは?からはじまり、似ている・似ていないを表現した距離(似ている程度、類似度)には、ユークリッド距離、ユークリッド距離の2乗、マハラノビスの距離、相関係数などがあることや、どうやってクラスタに分けていくのかについての考え方などが紹介されています。
次に、クラスタ間の距離の決め方として、最短距離法(最近隣法, nearest-neighbor method)、最長距離法(最遠隣法, furthest-neighbor method)、群平均法(group average method)、メディアン法(median method)、重心法(centroid method)、ウォード法(Ward method)などがサクッと説明されています。
加えて、クラスター分析の手順が、1つ1つ丁寧に示されています。最短距離法を例にして、距離行列を作成からクラスターとして結合、そして距離行列の更新、といったクラスタリングアルゴリズムが、最後のクラスタが形成されるまで、1つずつ書き下されています。これらの1つ1つのステップごとに、デンドログラムが追記されていき、どのクラスタリングプロセスがデンドログラムのどの部分に対応しているのか、といったことが一目瞭然に示されています。最後にデンドログラムの使い方や最適なクラスタ数の考え方などが述べられています。
クラスター分析の初学者が基礎を固めたり、1度学んだけどイマイチよくわかっていない方など、クラスタリングとは?をスッキリさせることができる1冊です。
2冊目はこちら【クラスター分析の概要とウォード法の解説が詳しい1冊です】
多変量解析法入門 (ライブラリ新数学大系)
本書は、クラスター分析について、適用例と解析のやり方が10人の試験成績データを使って解説されています。まず変数が2個の場合でのクラスター形成方法が、ユークリッド距離を用いた最短距離法を使って丁寧に示されています。加えてデンドログラムの解説もあります。
次に変数がp個の場合に拡張され、クラスター間距離として、最短距離法、最長距離法、群平均法、重心法などがサクッと説明されています。その後ウォード法について、鎖効果が起きにくいといった特徴が説明され、変数が2個、p個でのウォード法の計算方法と結果とデンドログラムが示されています。最後に練習問題があり、理解を確かめることができます。
クラスター分析の全体像をサクッと学べるだけでなく、ウォード法の計算手順を詳しく学べる1冊です。
3冊目はこちら【「R」でクラスタリングを学ぶならこちらの1冊】
Rで学ぶクラスタ解析
本書は、クラスタリングの手法から、統計解析フリーソフト「R」によるクラスタリングの実践方法、Rのプログラミングについて学べる1冊です。
Rは、無料で使え、最新のアルゴリズムも関数を呼び出すだけで使えるソフトウェアです。
本書では、Rを使って、クラスタリングの代表的な方法の手法と実行方法が解説されています。最短距離法などの凝集型の階層的クラスター分析、非階層的クラスタリングの代表的手法であるk-means法、混合分布モデルを用いたクラスタリング、スペクトラルクラスタリング、ファジィクラスタリングが扱われています。また、データが高次元の場合に活躍する、次元圧縮のLatent Semantic Indexing (LSI), Probabilistic Latent Semantic Indexing (pLSI), Non-negative Matrix Factorization(NMF)が解説されています。
Rを使ったことがない方も、Rのインストールからベクトルや行列などの基本演算、ファイル入出力、関数の使い方など、キチンと説明されているので、Rの使い方も学ぶことができます。加えて、Rを使ったプログラミングについてもサクッと説明されていて、詳しく学んでいきたい方の基礎づくりにも使えます。
Rを活用して、サクッとクラスタリングできるようになれる1冊です。
4冊目はこちら【研究や実務の遂行に「活かす」ためのクラスター分析ならこちら】
実例 クラスター分析
本書は、クラスター分析の応用例を100以上示しながら、クラスター分析の実践力をつけれる1冊です。
他書との違いは、本書ではクラスター分析の理論やアルゴリズムなどだけでなく、クラスター分析を研究や業務の中でどのように役立てていくか?という側面から、クラスター分析の使い方を詳細にガイドしてくれています。
4部構成になっており、パート1ではクラスタリングの概要が説明されています。クラスター分析の6段階として基本的なやり方の説明や、クラスター分析とは?が理解できるクラスター分析の特徴のまとめ、そして活用の仕方がまとめられています。活用の仕方では、どのように問題を認識し、仮説を立て、仮説を吟味すればよいのか、というプロセスで、クラスター分析の役立て方が解説されています。分類・計画立案・工学におけるクラスター分析の利用法も説明されています。
パート2では、クラスター分析の方法の詳細が説明されています。データ行列の標準化、数量的属性のための類似係数、クラスタリングのアルゴリズム(単連結クラスター化法(single linkage clustering method)、完全連結クラスター化法(complete linkage clustering method)、Ward最小分散クラスター化法など)について、元のデータ行列から類似行列と、クラスタリングの各過程による類似行列の変化が1つひとつ丁寧に示されています。また、データは属性空間上の点として図示されており、クラスタリングの進み方を視覚的にも理解しやすいように工夫されています。他にもWPGMA(weighted pair-group method using arithmetic averages)やセントロイド法、柔軟法などがサクッと解説されています。また、連鎖についての説明があり、連鎖が起こるかどうかについて、データと類似係数とクラスタリングのアルゴリズムを考えるとよいことがその理由とともにまとめられています。
加えて、質的属性、順序尺度(Kendall タウ係数)、数量的属性と質的属性が入り交じった場合や、マトリックス相関、類似マトリックス、コーフェン相関係数、クラスター分析の結果の提示法なども解説されています。
パート3では、パート1よりもさらに詳細にクラスター分析の方法が解説されています。分類を行う方法や、対象を識別して分類に組み入れる方法、分類と識別の原理などが説明されています。
パート4では、研究でクラスター分析を役立てるための考え方や、許容度・規準について、クラスター分析の工夫や結果の吟味をどのようにすればいいのかまとめられています。研究のさまざまな目的(問題設定、仮説の設定、仮説の吟味、一般目的分類の実行、特殊目的の実行、計画立案と経営の促進)について例題を通じて、具体的に解説があります。
本書は、クラスター分析の理論やアルゴリズムだけでなく、100以上の応用例を通じて、研究や実務に活かしていく考え方や方法のフレームワークを学べる1冊となっています。
5冊目はこちら【ファジィクラスタリングをシッカリ学びたいあなたはこちら】
クラスター分析入門―ファジィクラスタリングの理論と応用
本書は、クラスタリングの基本的な手法に加えて、それぞれに対応するファジィ・クラスタリングを学べる1冊です。
もともとはファジィ・クラスタリングを中心にした本にする予定だったとのことで、ファジィ・クラスタリングの内容も充実しています。そして、ファジィ・クラスタリングを学ぶためにも、ファジィを用いない標準的な手法もあわせて解説されています。
主な内容としては、パターン認識でよく使われる各手法をカバーしています。階層的クラスタリングや非階層的クラスタリングの両方が説明され、それぞれにファジィ理論による拡張としてファジィクラスタリングが解説されています。
具体的には、c−平均法の基本アルゴリズム、学習ベクトル量子化、そしてその数値例が解説された後,ファジィc−平均法が説明されています。標準的ファジィc−平均法、正則化ファジィc−平均法、ファジィ分類関数、ファジィc−平均法の変形などが学べます。
また、混合分布とクラスタリングの関係、最尤推定とEMアルゴリズムなどを学べ、混合密度分布モデルを理解することができます。
クラスタリングに必須となる類似度や非類似度についても、関連性の尺度の種類ごと(2値、名義、実数、これらの混在)に、解説されています。
階層的クラスタリングでは、そのアルゴリズムと計算例が示され、樹形図(デンドログラム)についての解説も数値例とともに述べられています。
階層的クラスタリングの中の最短距離法を例に、ファジィグラフとして、グラフ理論との関わりも学べます。また、階層的クラスタリングの課題についても説明があり、実務で使用する際の参考になります。
確率統計などの予備知識は必要なので、それらを学んでから読むと理解が進むかと思います。
本書はクラスタリングの様々な手法を、ファジィ・クラスタリングを含めて学べるお得な1冊となっています。
6冊目はこちら【研究結果などを理解するための基礎をつけれる1冊】
多変量データの分類―判別分析・クラスター分析 (シリーズ・多変量データの統計科学)
本書はクラスター分析で必要となる類似度・非類似度の定義や特徴から、クラスター分析の様々な手法(階層的クラスタリング、非階層的クラスタリング、ファジィクラスタリング、多変量正規混合モデルによるクラスター分析)についてシッカリ解説された1冊です。
まず分析対象となる「データ」として、個体×属性の形式もしくは類似度の観測データ等が紹介されています。名義尺度、順序尺度、間隔尺度、比例尺度など尺度の解説の後に、「類似度」・「非類似度」の定義がされています。半距離、定値、半定値、固有、計量的といった言葉の定義も合わせて説明があります。
また「適用例」として、間隔尺度への適用では距離関数という観点から、三角不等式などをまじえて、距離関数の和、距離関数の定数倍は距離関数になるが、距離関数の積や距離関数に定数を加えたものは距離関数にならないことなどが解説されています。階層的クラスタリングで重要な超距離についても説明されています。
次に、「具体的な距離関数」として、重みつきミンコフスキー距離が紹介され、この距離の特別な場合としてL1-ノルム(市街距離)、ユークリッド距離、一様ノルムなども説明されています。距離関数の特徴を表現する基準曲面(indicatrix)についても図を示しながら説明されています。加えて、変数の重みを決める際には、標準偏差の逆数や、その適当なベキ乗を使うこと、変量間の共分散も考慮するためのマハラノビスの平方距離の解説があります。共分散行列の逆行列が使われており、逆行列の扱い方や、多重共線性との関係、変数選択の必要性など、実務でも役立つ内容が解説されています。また、角分離度として個体の測定値をなすベクトルのなす角の余弦による方法も示されています。その後、名義尺度への場合の類似度として、2値データに対する類似度(Rao, Kulcynsk, Jaccard, Anderberg, Rogers-Tanimoto, Ochiai, Yuleなど)が紹介されています。
「階層的クラスタリング」では、その基本アルゴリズムや、非類似度の更新式(最短距離法、最長距離法、メディアン法、群平均法、重み付き平均法(Mcquitty法)、ウォード法、重心法)が示されています。また、フィッシャーのアイリスデータを使って、それぞれの更新式でのクラスタリングの計算方法や、最短距離法では空間全体が縮小傾向があり鎖効果をもつことなど各更新式によるクラスタリングの特徴がまとめられています。そして、クラスタリング結果の妥当性の評価として、樹状図(n-tree)の定義から、超距離、乖離測度、一様性の検定、最短距離の分布による検定、ポプキンスの検定統計量、コルモゴロフ・スミルノフ型の検定、単鋒性の検定、チビッコ検定(RUNT検定)、ギャップ検定などが解説されています。
「非階層的クラスタリング」では、k-平均法(k-means法)について、① Lloydのアルゴリズム、 ② Forgyのアルゴリズム、 ③ MacQueenのアルゴリズム、 ④ Hartigan and Wongのアルゴリズムがそれぞれ解説されています。また、クラスターの妥当性の基準として、クラスター内はできるだけまとまっていて、クラスター間は離れているものがいいと考えて、全データの偏差積和行列をクラスター内変動の和行列とクラスター間の変動の行列を使って評価する方法が解説されています。
「ファジィクラスタリング」では、集合論による考え方、集合演算、ファジイ関係が説明されてから、ファジィクラスタリングの解説に入ります。まず「ファジィ」の考え方が、集合論(ファジィ集合)として解説されており、ファジィ集合は、通常の集合論を拡張したものであることが理解できます。すなわち、通常各要素はその集合に属するか属さないか明確であるのに対して、ファジィ集合の要素では、個々の要素はその集合に属する度合い(グレード)を用いて定義されています。
次に、ファジィ集合の演算規則について、相等、包含、補集合、和集合、共通集合、空集合、全体集合、排他的和、差集合、代数積、代数和、絶対差、凸結合、レベル集合、反射率、反対称律、推移律、ベキ等律、結合律、交換律、吸収律、分配律、二重否定の法則、ド・モルガンの法則、定数の法則、相補律の不成立などが紹介されています。
また、ファジィ関係について、n項ファジィ関係、αーレベル関係、包含、和、交わり、補ファジィ関係、代数積、代数和、合成としてマックス・ミニ合成、マックス・スター合成、マックス・積合成、ミニ・マックス合成、ミニ・ミニ合成、マックス・マックス合成、逆ファジィ関係、相等関係、零関係、全関係といった性質が説明されています。ファジィ類似関係は、通常の同値関係の一般化ですが、反射性、対称性、推移性、反対称性、類似関係、非類似関係、相似関係、非相似関係についてまとめられています。
ファジィクラスタリングでは、ファジィクラスタリング(ファジィ部分集合)のメンバーシップ関数による定義や、K個に分割できる条件の定義、ファジィクラスタリングの歴史、ファジィc−平均法の解説とそのアルゴリズム、そしてアイリスデータへの適用例が図を用いて示されています。ファジィc−平均法の結果、各データは各クラスターへの帰属度が得られるので、それが0から1まで白から黒の連続変化のグレースケールで表現されています。最後にファジィクラスタリングの妥当性の検証として、WindhamらによるUDF(Uniform data functional)についてや、Gath and Gevaによる密度と超体積に基づくファジィクラスタリングの妥当性を示す量の提案がサクッと解説されています。
その後、多変量正規混合モデルによるクラスター分析の解説が行われています。あるデータがいくつかのクラスターに属するというファジィクラスタリングの考え方は、全体がいくつかの確率分布で混合されたものと解釈することも可能です。そこでここではクラスターを表現する確率分布の密度関数を単峰性と仮定して、多変量正規分布でクラスターを表現し、全体をそれらの混合分布としてモデル化する方法が解説されています。つまり、データはクラスター数や変量数が既知の多変量混合分布をもつ母集団からの標本とみなします。この多変量正規分布モデルのパラメータをデータから推定することがここでの目的となります。そのために、ここでは「EMアルゴリズム」が紹介されています。その後、多変量正規混合モデルによるクラスタリングについて、アルゴリズムの手順(①初期設定、②E-ステップでの期待値計算、③M-ステップでの期待値の最大化、④収束判定)を交えて解説されています。多変量混合正規分布によるモデルには、密度関数の形や方向性、容積などの違いによって、様々なタイプがあることも示されています。また、必要となる初期値の設定の方法や収束判定なども説明が加えられています。
続いて、数値計算例としてUCL Machine Learning Repositoryの”brest-cancer-wisconsin”データを用いて、2変量正規分布を混合したモデルの当てはめが行われています。初期設定を行いEMアルゴリズムの初期値を求め、EMアルゴリズムが実行され、クラスターへの帰属度が事後確率によって計算されています。さらに、クラスタリングEMアルゴリズムとして、帰属を表すパラメータまで含めて尤度関数を表現し、多変量混合正規分布のパラメータと同時に求めるEMアルゴリズムが紹介されています。これにより、帰属度でなく各データがどの群に属するかをはっきり決定させることができます。最後に混合分布の個数をいくつにすればいいのか?の問いについて、個数をきめるための統計的検定方法が解説されています。
本書はクラスタリングについて、シッカリ書かれており、1度基礎を学んだ方が本格的に学ぶのにおすすめの本です。最新の論文などを理解する基礎をつけることができる1冊となっています。
というわけで、「クラスター分析(クラスタリング)」を学びたいあなたにチェックしてほしい良書、6冊をご紹介しました。
以下のように、他にも良書がありますので、随時更新していきたいと思います!
こちらもございます↓
例題とExcel演習で学ぶ多変量解析: 因子分析・コレスポンデンス分析・クラスター分析 編
関連性データの解析法―多次元尺度構成法とクラスター分析法
クラスター分析 (講座・情報をよむ統計学)
クラスター分析とその応用
数理分類学
Cluster Analysis For Researchers
Numerical Taxonomy: The Principles and Practice of Numerical Classification
Cluster Analysis for Applications: Probability and Mathematical Statistics: A Series of Monographs and Textbooks (Probability & Mathematical Statistics Monograph)
Modern Algorithms of Cluster Analysis (Studies in Big Data)
Practical Statistics for Data Scientists: 50 Essential Concepts
↓こちら無料で読めます
Python 1番最初の入門書: コスパ最高 無料でプログラミング (ミント出版)
R チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)
人工知能 1番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)
サクッとわかる人工知能 第2巻: ディープラーニングの祖先を「改良」する (ミント出版)
画像処理 0番目の入門書: Python/OpenCV 環境構築編 (ミント出版)
画像処理 1番最初の入門書
Kindle Unlimitedの登録することで、
- 無料で読むことが可能
です。
お試し登録(解約できて無料)をしてみてはいかがでしょうか(初回30日間無料で体験できます)↓
こちらの記事もございます↓
『「テキストマイニング」に関係する記事のまとめはこちらです』
『「データマイニング」を勉強したいあなたにチェックしてほしい良書、10冊はこちらです』