「クラスター分析」とは?膨大な情報の内容を、ラク〜にサクッと理解したいあなたはこちらをどうぞ

クラスター分析とは 目的 クラスタリング アルゴリズム 階層的アルゴリズム 2 アルゴリズム

インターネットの発展に伴って、膨大な文書データが比較的手軽に入手可能になりました。

情報がたくさんあることはいいことではありますが、

ヒトの能力を超えた量の情報が日々生産させている中では、情報をシンプルに取捨選択することも重要です。

膨大な情報を取捨選択する基本的な考え方の1つに、情報を「整理・分類する」があります。

 

わたしは本を読むことが好きで、多くの本を読んでいます。

多くの本を効率的に読むことを考えると、いきなり本文を読むのではなく、最初は目次をみてどのような情報が含まれているかを、おおまかに知っておくことが役に立ちます。

 

考えたら当たり前ですが、目次というのは、その本の内容を整理・分類した情報なんです。

 

なので、目次をみることで本文のおおまかな内容を知ることができ、興味あるところから読んだり、ある箇所と別の箇所の関係性を理解するのに役立ちます。

 

2章と5章は具体例が違うだけで本質は同じことを言ってそうだな〜

 

なんて分かれば、2章か5章のどちらか好きの方を読み、もう片方はサッと流し読みすることで、内容を効率的に理解することができます。目次で情報が整理・分類されていたからこそ、このような効率的な理解ができたわけです。

 

つまり、大量の情報を効率的に理解するには、情報を整理・分類することが大事だということが重要なんです。

 

本は目次があるけど、自分で集めてきた情報には目次なんてないじゃないー

 

なんて思われるかもしれません。

そのとおりで、情報を集めてきただけでは、それらがどんな内容なのか見当もつきません。

たしかに ”ラーメン店の情報を集めよう”といったようにあらかじめ条件をつけて集めれば、ラーメン店の情報は集まりますが、ラーメン店のなにに関する情報が集まったかは以前不明で、集まった膨大な情報をサクッとは理解しずらい状況だと思います。

 

目次がなければ、自分でつくればいいじゃない!

 

と思われるかもしれません。たしかに集まった情報を全部目を通しながら、これとこれは同じような内容、これはぜんぜん違う内容・・・のように、1つずつ仕分けしていけば、きちんとした目次ができるはずです。でもこれ、すごく時間かかりますよね。

 

できれば、もっとラク〜に目次ってつくれないかなぁ?

 

と思われる方も多いと思います。そういった時に役に立つのが、「クラスター分析」です。

クラスター分析(クラスタリング)は情報を整理・分類するためのアルゴリズムなんです。

要はコンピュータにやらせてしまおうというわけです。

 

え?コンピュータにそんなことできるの?

 

と思われるかもしれません。

 

 

「クラスター分析」とは?膨大な情報の内容を、ラク〜にサクッと理解したいあなたはこちらをどうぞ

 

たくさんの情報があったときに、それぞれ似てるもの同士を集めて、

似てないものを遠ざけるといった処理をしてあげることで、

それらの情報を整理・分類することができます。

 

クラスター分析っていいね!

 

ラーメン店の情報を集めてきたら、それをクラスター分析すると、例えば、

  • メニューの情報(情報1、情報9、情報40、情報110、・・・)
  • 価格の情報(情報3、情報22、情報203、情報441・・・)
  • 場所の情報(情報2、情報13、情報32、情報99、・・・)
  • 感想・評価の情報(情報4、情報12、情報55、情報121・・・)
  • ・・・

といった感じに整理分類できます。

コンピュータをウマく使うこと、多くの情報(情報1、情報2、情報3、・・・)を、似たものが塊として認識できるように、整理分類することができます。

 

このようにクラスター分析では、情報の目次の候補をコンピュータに作らせることができる、と言えます。

 

  • クラスター分析って役に立ちそうだなぁ〜
  • でも、具体的にはどうやって分類してるの?

 

と思われるかもしれません。

 

そこで本連載では、クラスター分析について、具体的な例を挙げながら、クラスター分析ってどんな感じで、どんなことができるのかをまとめていきたいと思います↓

第2回『テキストマイニングの「クラスター分析」でも必要な「素性(そせい)ベクトル」とは?なぜ必要なの?

 

 

 

 

こちらもございます↓

 

 

 

 

 

こちらの記事もございます↓

「多変量解析」に関係する記事をまとめ

 

「テキストマイニング」とは?知っていると理解がすすむ目的別3つのポイント

 

「テキストマイニング」で経営状態や業界動向を調べるにはどうするの?

 

日本語の「テキストマイニング」を統計解析フリーソフト「R」でサクッ実行したいあなた、こちらはいかがでしょうか

 

機械学習を無料ではじめてみませんか!?【フリーソフトではじめる機械学習入門】

 

「人工知能」の「プログラミング」の本質を、手を動かしながら学びたいあなたはこちらをどうぞ【関数型オブジェクト指向AI プログラミング:Scala による人工知能の実装】

 

 

今後定期的に、クラスター分析について記事を更新していきます。

Twitterなどフォローしてもらえると、更新情報が届くので便利です!