テキストマイニング

おすすめ

Kaggle(カグル)で Grandmaster になりたいあなたにおすすめの本はこちらです【機械学習 ディープラーニング】

Kaggle(カグル)とは、データサイエンスや機械学習に携わる方々の、オンラインコミュニティの1つです。自社の多くのデータを活用していきたいオープンソースのデータを利用して何かできないかなデータサイエンティストや機械学習エンジニアになりたい...
おすすめ

【前処理 クレンジング】欠損値、欠測値、不完全なデータなど、前処理に困った、うまく前処理したいあなたにおすすめの本はこちらです【データ分析 機械学習】

データ分析や機械学習の手法を身につけてみたものの、実際は、業務のデータや、現実世界のデータをデータ分析、機械学習してみたら、値がない欠損値や欠測値があり、うまくいかなかったデータ分析や機械学習の手法は、データを整えないと使えない(不完全デー...
テキストマイニング

口コミの分析方法とは?(3) 口コミデータの形態素解析(単語分割と品詞付加、原形の特定)について、オープンソースのフリーソフトなども含めて、わかりやすく、サクッとまとめました

口コミ(クチコミ)とは、口頭やネット上などでのヒトからヒトへの情報伝達のことです。ネット上の口コミでは、情報の内容だけでなく、いつ・どこでされた会話かといった情報もともに残されています。こういった口コミを分析することで、世論を調べるマーケテ...
Text Mining Studio

口コミの分析方法とは?(2) 口コミデータの1文抽出(文分割)について、オープンソースのフリーソフトなども含めて、わかりやすく、サクッとまとめました

口コミ(クチコミ)とは、口頭でのコミュニケーションによる情報伝達のことです。人と人の直接の情報伝達だけでなく、ネット上での口コミも増えています。例えば、Webサイトのコメントや掲示板、SNSなどで気軽に人と人のコミュニケーションが、成立して...
Python

口コミの分析方法とは?(1) 口コミデータの特定、収集、本文抽出、注意点について、わかりやすく、サクッとまとめました

口コミ(クチコミ)とは、人の口から口に伝わる情報などを含んだコミュニケーションを指します。例えば、近所の奥さんの井戸端会議を想像すると分かりやすいかと思います。テレビCMのようなマスコミュニケーションと対比される概念になります。近年のネット...
IT技術

「対話ai」には、どんな種類があるの?4つのタイプとは【ユーザー向け】

「対話ai」は、対話を行う人工知能システムのことです。身近な例だと、アップルの「Siri」マイクロソフトの「りんな」アマゾンの「Amazonエコー」といったものが実用化されています。これらは音声を認識し、必要な情報を返してくれます。例えば、...
IT技術

「対話 ai」とは?対話と会話の違い、質問応答システムとの違い、対話システムの具体例や現状についてまとめました

人工知能は現在、非常に盛り上がっています。文科省は、大学教育で、人工知能の教育を必須とする方針を打ち出しています。第4次産業革命とも言われる人工知能ですが、そのわかりやすい、身近な例の1つは、「対話ai」ではないでしょうか。対話aiというの...
テキストマイニング

BERT(ディープラーニング)による自然言語処理は、どんなデータで評価されたの?どんな応用ができそう?

ディープラーニングによる人工知能の進歩は、日進月歩です。画像認識や音声認識の分野においては、すでに人間と同等かそれ以上の性能を示すモデルができています。しかし、自然言語処理においては、人間のスコアを超えるモデルはできていませんでした。最近発...
Python

Python でできることってなに?チャットボットやテキストマイニング、人工知能やスクレイピングなどPythonの使い方をまとめました

最近、Pythonを使う方が増えています。なぜ、増えてるの?Pythonで、できることってなにがあるの?といった疑問を持つ方も多いのではないでしょうか。 Pythonを使うメリットは初心者の方でも学びやすい高機能を低コストで実現しやすいとい...
Python

「テキストマイニング」を学びたいあなたにチェックしてほしい良書、12冊はこちらです

「テキストマイニング」とは、テキスト(文書)を分析して、新しい知見を発掘する(マイニング)技術のことです。テキストマイニングは、学術やビジネスなど、さまざまなところで応用可能です。テキストマイニングってなに?どんな仕組みになってるの?テキス...
テキストマイニング

テキストマイニングに使えるフリーソフトや無料で使えるツール・ライブラリ、14選はこちらです

テキストマイニングは、テキストデータから有用な知識や知恵を抽出する技術の総称です。一般的に、テキストマイニングは、大まかには、(1),テキストデータの準備(2),テキストデータの解析いったプロセスで行われ、(2)を一般的にテキストマイニング...
データ分析

テキストマイニングの手法とは?概要をつかみ、手法の選択ができ、自分の業務に活かしたいあなたはこちらをどうぞ

テキストマイニングとは、分析したいテキストデータから、役立つ情報を抽出することです。テキストマイニングとひとことで言っても、様々な手法があり、目的に応じて選択する必要があります。そこで本記事では、テキストマイニングをやりたい初学者の方向けに...
おすすめ

「自然言語処理」を学びたい人におすすめの良書、10冊はこちらです

「自然言語処理」とは、コンピュータが言語を扱うようにするための技術の総称です。コンピュータで扱えるようになることで、大量の言語データの中から知識を獲得できる翻訳・通訳をしてくれるコンピュータと人間が自然に会話できるようになるなど、私たちの生...
アルゴリズム

「階層的クラスタリング」の「完全連結法(Complete Linkage Method)」とは?初学者の方でも、わかりやすいようにまとめました

前回は、クラスター分析でよく使う「最短距離法」という階層的クラスタリングの手法についてまとめました↓第9回『「階層的クラスタリング」の「最短距離法(SingleLinkageMethod)」とは?初学者の方でもわかりやすいようにまとめました...
Python

「HTML」や「XML」を「Python」で手軽に扱いたいあなた「BeautifulSoup」はいかがでしょうか

HTMLやXMLファイルを自動的に処理したり、賢く処理をしたりするときに、ラクにプログラミングできたらいいですよね。Webページなど、クローリングしてきたデータをスクレイピングするにも、ラクにサクッとプログラミングしたいものです。今回は、H...
XML

「XMLとは?」HTMLとの違いや、どう役に立つの?ってあなたはこちらをどうぞ

今回は、XMLってなに?ってとこを、HTMLを交えながらわかりやすくまとめました。XMLとは?から、XMLとHTMLの違いは?や、XMLはなぜ役に立つの?ってことを知りたいあなたに役立てばいいなと思います。XMLとは?まずは、XMLってなに...
アルゴリズム

「階層的クラスタリング」の「最短距離法(Single Linkage Method)」とは?初学者の方でもわかりやすいようにまとめました

前回は、クラスター分析でよく使う「類似度」を整理整頓した「距離行列」をまとめました。↓第8回『「距離行列」とは?データ分析手法全般でよく使う「類似度」の扱いをシッカリ学びたいあなたはこちらをどうぞ』今回はクラスター分析の手順の③で、実際にク...
アルゴリズム

「距離行列」とは?データ分析手法全般でよく使う「類似度」について学びたいあなたはこちらをどうぞ

前回は、クラスター分析のやり方について3つのポイントでまとめました↓第7回『「クラスター分析」ってどうやるの?クラスター分析のやり方、具体的な3つのステップはこちらです』今回は、クラスター分析のやり方の2番目をさらに掘り下げようと思います。...
アルゴリズム

「クラスター分析」ってどうやるの?クラスター分析のやり方、具体的な3つのステップはこちらです

前回は、「クラスター分析」で使う素性ベクトルの(特にテキストマイニングの分野で)定番であるTF-IDF法をまとめました。第6回『テキストマイニングの「クラスター分析」などで使われる、知らないと恥ずかしい「素性ベクトル作成の定番的方法」とは?...
アルゴリズム

テキストマイニングの「クラスター分析」などで使われる、知らないと恥ずかしい「素性ベクトル作成の定番的方法」とは?

前回は、「クラスター分析」で必要となる「素性ベクトル(特徴ベクトル)」を洗練するための2つのテクニックをご紹介しました。第5回『クラスター分析で必要な「素性ベクトル」を洗練する2つのテクニックとは?』(他の過去記事は下にございます)今回は、...
アルゴリズム

テキストマイニングなどの「クラスター分析」で必要な「素性ベクトル」を洗練する2つのテクニックとは?

前回は、クラスター分析で必要な素性ベクトル(特徴ベクトル)をつくる際のポイント「表記ゆれ」と、それを解決するアルゴリズムである「ステミング」をご紹介しました↓第4回『テキストマイニングなどのクラスター分析で必要な「素性ベクトル」をつくりたい...
アルゴリズム

テキストマイニングなどの「クラスター分析」で必要な「素性ベクトル」をつくりたいあなたが知らないと損をする必須のテクニックとは?

前回は、「クラスター分析」で必要となる「素性ベクトル(特徴ベクトル)」の作り方をまとめました。第3回『テキストマイニングなどのクラスター分析でも重要な「素性ベクトル」を作るための3つのステップとは?』(それ以外の過去記事は、下にございます)...
アルゴリズム

テキストマイニングなどのクラスター分析でも重要な「素性(そせい)ベクトル」を作るための3つのステップとは?

前回は、クラスター分析するときに必要になる「素性ベクトル(特徴ベクトル)」について、素性ベクトルとは?なぜ必要なの?をまとめました↓第2回『テキストマイニングの「クラスター分析」でも必要な「素性ベクトル」とは?なぜ必要なの?』今回は、「素性...
アルゴリズム

テキストマイニングの「クラスター分析」でも必要な「素性(そせい)ベクトル」とは?なぜ必要なの?

前回の記事で、「クラスター分析とは?」についてまとめました。クラスター分析という言葉を初めて聞いたという方クラスター分析ってどんなものなの?クラスター分析はどう役に立つの?という方は、こちらをどうぞ↓第1回『「クラスター分析」とは?膨大な情...
アルゴリズム

「クラスター分析」とは?膨大な情報の内容を、ラク〜にサクッと理解したいあなたはこちらをどうぞ

インターネットの発展に伴って、膨大な文書データが比較的手軽に入手可能になりました。情報がたくさんあることはいいことではありますが、ヒトの能力を超えた量の情報が日々生産させている中では、情報をシンプルに取捨選択することも重要です。膨大な情報を...
R

「テキストマイニング」で経営状態や業界動向を調べるにはどうするの?

今回は、テキストマイニングの事例紹介です。まず、「テキストマイニングってなに?」という方は、詳しくはこちらをどうぞ ↓ 「テキストマイニング」とは?知っていると理解がすすむ目的別3つのポイント「テキストマイニング」がなにか分かると、テキスト...
R

「テキストマイニング」とは?知っていると理解がすすむ目的別3つのポイント

ブログやSNSの普及で、インターネット上には膨大な文章や文字列が日々投稿されています。ビジネスデータもどんどん電子化がすすみ、それらのデータから役立つ知見を見出せば、ビジネスに貢献できるはずです。そこで今回は、文章を分析する手法である「テキ...