インターネットの発展に伴って、膨大な文書データが比較的手軽に入手可能になりました。
情報がたくさんあることはいいことではありますが、
ヒトの能力を超えた量の情報が日々生産させている中では、情報をシンプルに取捨選択することも重要です。
膨大な情報を取捨選択する基本的な考え方の1つに、情報を「整理・分類する」があります。
わたしは本を読むことが好きで、多くの本を読んでいます。
多くの本を効率的に読むことを考えると、いきなり本文を読むのではなく、最初は目次をみてどのような情報が含まれているかを、おおまかに知っておくことが役に立ちます。
考えたら当たり前ですが、目次というのは、その本の内容を整理・分類した情報なんです。
なので、目次をみることで本文のおおまかな内容を知ることができ、興味あるところから読んだり、ある箇所と別の箇所の関係性を理解するのに役立ちます。
2章と5章は具体例が違うだけで本質は同じことを言ってそうだな〜
なんて分かれば、2章か5章のどちらか好きの方を読み、もう片方はサッと流し読みすることで、内容を効率的に理解することができます。目次で情報が整理・分類されていたからこそ、このような効率的な理解ができたわけです。
つまり、大量の情報を効率的に理解するには、情報を整理・分類することが大事だということが重要なんです。
本は目次があるけど、自分で集めてきた情報には目次なんてないじゃないー
なんて思われるかもしれません。
そのとおりで、情報を集めてきただけでは、それらがどんな内容なのか見当もつきません。
たしかに ”ラーメン店の情報を集めよう”といったようにあらかじめ条件をつけて集めれば、ラーメン店の情報は集まりますが、ラーメン店のなにに関する情報が集まったかは以前不明で、集まった膨大な情報をサクッとは理解しずらい状況だと思います。
目次がなければ、自分でつくればいいじゃない!
と思われるかもしれません。たしかに集まった情報を全部目を通しながら、これとこれは同じような内容、これはぜんぜん違う内容・・・のように、1つずつ仕分けしていけば、きちんとした目次ができるはずです。でもこれ、すごく時間かかりますよね。
できれば、もっとラク〜に目次ってつくれないかなぁ?
と思われる方も多いと思います。そういった時に役に立つのが、「クラスター分析」です。
クラスター分析(クラスタリング)は情報を整理・分類するためのアルゴリズムなんです。
要はコンピュータにやらせてしまおうというわけです。
え?コンピュータにそんなことできるの?
と思われるかもしれません。
「クラスター分析」とは?膨大な情報の内容を、ラク〜にサクッと理解したいあなたはこちらをどうぞ
たくさんの情報があったときに、それぞれ似てるもの同士を集めて、
似てないものを遠ざけるといった処理をしてあげることで、
それらの情報を整理・分類することができます。
クラスター分析っていいね!
ラーメン店の情報を集めてきたら、それをクラスター分析すると、例えば、
- メニューの情報(情報1、情報9、情報40、情報110、・・・)
- 価格の情報(情報3、情報22、情報203、情報441・・・)
- 場所の情報(情報2、情報13、情報32、情報99、・・・)
- 感想・評価の情報(情報4、情報12、情報55、情報121・・・)
- ・・・
といった感じに整理分類できます。
コンピュータをウマく使うこと、多くの情報(情報1、情報2、情報3、・・・)を、似たものが塊として認識できるように、整理分類することができます。
このようにクラスター分析では、情報の目次の候補をコンピュータに作らせることができる、と言えます。
- クラスター分析って役に立ちそうだなぁ〜
- でも、具体的にはどうやって分類してるの?
と思われるかもしれません。
そこで本連載では、クラスター分析について、具体的な例を挙げながら、クラスター分析ってどんな感じで、どんなことができるのかをまとめていきたいと思います↓
第2回『テキストマイニングの「クラスター分析」でも必要な「素性(そせい)ベクトル」とは?なぜ必要なの?』
こちらもございます↓
こちらの記事もございます↓
『「テキストマイニング」とは?知っていると理解がすすむ目的別3つのポイント』
『「テキストマイニング」で経営状態や業界動向を調べるにはどうするの?』
『日本語の「テキストマイニング」を統計解析フリーソフト「R」でサクッ実行したいあなた、こちらはいかがでしょうか』
『機械学習を無料ではじめてみませんか!?【フリーソフトではじめる機械学習入門】』
『「人工知能」の「プログラミング」の本質を、手を動かしながら学びたいあなたはこちらをどうぞ【関数型オブジェクト指向AI プログラミング:Scala による人工知能の実装】』
今後定期的に、クラスター分析について記事を更新していきます。
Twitterなどフォローしてもらえると、更新情報が届くので便利です!