「クラスター分析（クラスタリング）」を学びたいあなたにチェックしてほしい良書、６冊はこちらです

多変量解析法入門 (ライブラリ新数学大系 E20)

本書は、クラスター分析（クラスタリング）について、基礎の基礎から丁寧に解説されています。

まずクラスターとは？からはじまり、似ている・似ていないを表現した距離（似ている程度、類似度）には、ユークリッド距離、ユークリッド距離の２乗、マハラノビスの距離、相関係数などがあることや、どうやってクラスタに分けていくのかについての考え方などが紹介されています。

次に、クラスタ間の距離の決め方として、最短距離法（最近隣法, nearest-neighbor method）、最長距離法（最遠隣法, furthest-neighbor method）、群平均法（group average method）、メディアン法（median method）、重心法（centroid method）、ウォード法（Ward method）などがサクッと説明されています。

加えて、クラスター分析の手順が、１つ１つ丁寧に示されています。最短距離法を例にして、距離行列を作成からクラスターとして結合、そして距離行列の更新、といったクラスタリングアルゴリズムが、最後のクラスタが形成されるまで、１つずつ書き下されています。これらの１つ１つのステップごとに、デンドログラムが追記されていき、どのクラスタリングプロセスがデンドログラムのどの部分に対応しているのか、といったことが一目瞭然に示されています。最後にデンドログラムの使い方や最適なクラスタ数の考え方などが述べられています。

クラスター分析の初学者が基礎を固めたり、１度学んだけどイマイチよくわかっていない方など、クラスタリングとは？をスッキリさせることができる１冊です。

２冊目はこちら【クラスター分析の概要とウォード法の解説が詳しい１冊です】

多変量解析法入門 (ライブラリ新数学大系)

サイエンス社

本書は、クラスター分析について、適用例と解析のやり方が10人の試験成績データを使って解説されています。まず変数が２個の場合でのクラスター形成方法が、ユークリッド距離を用いた最短距離法を使って丁寧に示されています。加えてデンドログラムの解説もあります。

次に変数がp個の場合に拡張され、クラスター間距離として、最短距離法、最長距離法、群平均法、重心法などがサクッと説明されています。その後ウォード法について、鎖効果が起きにくいといった特徴が説明され、変数が２個、p個でのウォード法の計算方法と結果とデンドログラムが示されています。最後に練習問題があり、理解を確かめることができます。

クラスター分析の全体像をサクッと学べるだけでなく、ウォード法の計算手順を詳しく学べる１冊です。

３冊目はこちら【「R」でクラスタリングを学ぶならこちらの１冊】

Rで学ぶクラスタ解析

オーム社

本書は、クラスタリングの手法から、統計解析フリーソフト「R」によるクラスタリングの実践方法、Rのプログラミングについて学べる１冊です。

Rは、無料で使え、最新のアルゴリズムも関数を呼び出すだけで使えるソフトウェアです。

本書では、Rを使って、クラスタリングの代表的な方法の手法と実行方法が解説されています。最短距離法などの凝集型の階層的クラスター分析、非階層的クラスタリングの代表的手法であるk-means法、混合分布モデルを用いたクラスタリング、スペクトラルクラスタリング、ファジィクラスタリングが扱われています。また、データが高次元の場合に活躍する、次元圧縮のLatent Semantic Indexing (LSI), Probabilistic Latent Semantic Indexing (pLSI), Non-negative Matrix Factorization(NMF)が解説されています。

Rを使ったことがない方も、Rのインストールからベクトルや行列などの基本演算、ファイル入出力、関数の使い方など、キチンと説明されているので、Rの使い方も学ぶことができます。加えて、Rを使ったプログラミングについてもサクッと説明されていて、詳しく学んでいきたい方の基礎づくりにも使えます。

Rを活用して、サクッとクラスタリングできるようになれる１冊です。

４冊目はこちら【研究や実務の遂行に「活かす」ためのクラスター分析ならこちら】

実例クラスター分析

内田老鶴圃

クラスター分析入門 POD版:ファジィクラスタリングの理論と応用

本書は、クラスター分析の応用例を１００以上示しながら、クラスター分析の実践力をつけれる１冊です。

他書との違いは、本書ではクラスター分析の理論やアルゴリズムなどだけでなく、クラスター分析を研究や業務の中でどのように役立てていくか？という側面から、クラスター分析の使い方を詳細にガイドしてくれています。

４部構成になっており、パート１ではクラスタリングの概要が説明されています。クラスター分析の６段階として基本的なやり方の説明や、クラスター分析とは？が理解できるクラスター分析の特徴のまとめ、そして活用の仕方がまとめられています。活用の仕方では、どのように問題を認識し、仮説を立て、仮説を吟味すればよいのか、というプロセスで、クラスター分析の役立て方が解説されています。分類・計画立案・工学におけるクラスター分析の利用法も説明されています。

パート２では、クラスター分析の方法の詳細が説明されています。データ行列の標準化、数量的属性のための類似係数、クラスタリングのアルゴリズム（単連結クラスター化法（single linkage clustering method）、完全連結クラスター化法（complete linkage clustering method）、Ward最小分散クラスター化法など）について、元のデータ行列から類似行列と、クラスタリングの各過程による類似行列の変化が１つひとつ丁寧に示されています。また、データは属性空間上の点として図示されており、クラスタリングの進み方を視覚的にも理解しやすいように工夫されています。他にもWPGMA（weighted pair-group method using arithmetic averages）やセントロイド法、柔軟法などがサクッと解説されています。また、連鎖についての説明があり、連鎖が起こるかどうかについて、データと類似係数とクラスタリングのアルゴリズムを考えるとよいことがその理由とともにまとめられています。

加えて、質的属性、順序尺度（Kendall タウ係数）、数量的属性と質的属性が入り交じった場合や、マトリックス相関、類似マトリックス、コーフェン相関係数、クラスター分析の結果の提示法なども解説されています。

パート３では、パート１よりもさらに詳細にクラスター分析の方法が解説されています。分類を行う方法や、対象を識別して分類に組み入れる方法、分類と識別の原理などが説明されています。

パート４では、研究でクラスター分析を役立てるための考え方や、許容度・規準について、クラスター分析の工夫や結果の吟味をどのようにすればいいのかまとめられています。研究のさまざまな目的（問題設定、仮説の設定、仮説の吟味、一般目的分類の実行、特殊目的の実行、計画立案と経営の促進）について例題を通じて、具体的に解説があります。

本書は、クラスター分析の理論やアルゴリズムだけでなく、１００以上の応用例を通じて、研究や実務に活かしていく考え方や方法のフレームワークを学べる１冊となっています。

５冊目はこちら【ファジィクラスタリングをシッカリ学びたいあなたはこちら】

クラスター分析入門―ファジィクラスタリングの理論と応用

森北出版

多変量デ-タの分類: 判別分析・クラスタ-分析 (シリーズ〈多変量データの統計科学〉 2)

本書は、クラスタリングの基本的な手法に加えて、それぞれに対応するファジィ・クラスタリングを学べる１冊です。

もともとはファジィ・クラスタリングを中心にした本にする予定だったとのことで、ファジィ・クラスタリングの内容も充実しています。そして、ファジィ・クラスタリングを学ぶためにも、ファジィを用いない標準的な手法もあわせて解説されています。

主な内容としては、パターン認識でよく使われる各手法をカバーしています。階層的クラスタリングや非階層的クラスタリングの両方が説明され、それぞれにファジィ理論による拡張としてファジィクラスタリングが解説されています。

具体的には、c−平均法の基本アルゴリズム、学習ベクトル量子化、そしてその数値例が解説された後，ファジィc−平均法が説明されています。標準的ファジィc−平均法、正則化ファジィc−平均法、ファジィ分類関数、ファジィc−平均法の変形などが学べます。

また、混合分布とクラスタリングの関係、最尤推定とEMアルゴリズムなどを学べ、混合密度分布モデルを理解することができます。

クラスタリングに必須となる類似度や非類似度についても、関連性の尺度の種類ごと（２値、名義、実数、これらの混在）に、解説されています。

階層的クラスタリングでは、そのアルゴリズムと計算例が示され、樹形図（デンドログラム）についての解説も数値例とともに述べられています。

階層的クラスタリングの中の最短距離法を例に、ファジィグラフとして、グラフ理論との関わりも学べます。また、階層的クラスタリングの課題についても説明があり、実務で使用する際の参考になります。

確率統計などの予備知識は必要なので、それらを学んでから読むと理解が進むかと思います。

本書はクラスタリングの様々な手法を、ファジィ・クラスタリングを含めて学べるお得な１冊となっています。

６冊目はこちら【研究結果などを理解するための基礎をつけれる１冊】

多変量データの分類―判別分析・クラスター分析 (シリーズ・多変量データの統計科学)

朝倉書店