前回、AIシステムの性能を上げるには、
データが重要だと書きました。
『機械学習とは?できること、簡単な利用例、実用例、ビジネス事例、AIの性能向上にはどうすればいいの?』
では、AI・人工知能の性能アップには、
- データがあれば多ければ多いほどいい?
- データにはどんな種類のものがあるの?
- データを活用する際の注意点ってあるの?
など、データに関して知っておくと、
したいときにとても役立ちます。
また、ITインフラ整備や人員確保などの予算ともかかわってくるので、とても重要なポイントになります。
というわけで、本記事では、AI・人工知能に必須のデータについて、
わかりやすくまとめました。
AI(人工知能)・機械学習のためのデータとは?データセットの収集・自作方法とAIデータ活用の3つの落とし穴とは?
まず、データにはどのようなものがあるかを考えていきましょう。
AI・人工知能で使えるデータってどんなものがあるの?
具体的に、AIの入力データにできるものには、なにがあるでしょうか?3つ答えてください
回答をみる
答え:(例)
- 画像データ、
- 音声データ、
- テキストデータ、
- 時系列データ、
- テーブルデータ(表データ)
など。
画像データは、デジタル写真データのことですね。
音声データは、音のデータです。
テキストデータは、文字列のデータになります。
本の原稿をワードで書いたものがあれば、
その中身の文字はテキストデータになります。
時系列データには様々なものがありますが、
例えば、気温のデータや、株価のデータなどは、
時間に伴って変化する様子をデータとして記録しており、
時系列データと呼ばれます。
テーブルデータは、例えば、
中学生のあるクラスの身長と体重をまとめたデータがあったとします。
すると、こんな感じのデータになるはずです。
生徒番号 |
身長 |
体重 |
1 |
145 |
66 |
2 |
172 |
77 |
3 |
169 |
57 |
4 |
166 |
49 |
5 |
189 |
58 |
のような感じです。
このようなデータをテーブルデータ(表データ)といいます。
エクセルで表現できるようなデータですね。
ちなみに、テーブルデータなど形がきちっと整っているデータは、○○データと呼ばれることもあります。○○はなんでしょうか?
回答をみる
答え:構造化データ
データが構造的に整っているわけですね。
ではそれと反対に、テキストデータや音声データなど、
構造があいまいなデータをなんと呼ぶでしょうか?
回答をみる
答え:非構造化データ
データが整っていないわけです。
AIに活用する際には、前もって構造化させる処理(前処理)が必要となります。
このようなデータを集めることで、
AIを活用したり、性能向上をさせたりできるわけです。
では、どうやったらAIのためのデータを取得できるでしょうか?
AI・人工知能・機械学習のためのデータの入手方法とは?
では、こういったデータはどうやって手に入れたらいいのでしょうか?あなたが思う方法を3つ提案してください。
回答をみる
回答例:
1,自分でデータを集めて、教師ラベルをつける
2,対象の動作を監視する
3,Webサイトからダウンロードする
4,すでにデータをもっている人からいただく
などがあります。
それぞれ1つずつみていきましょう。
まずAIデータの取得の1つめの
「自分でデータを集めて、教師ラベルをつける」
これは、どんなことを行うと可能でしょうか?
例を挙げて説明してみてください。
AIデータの取得方法1
回答をみる
例えば、あなたがスーパーの店員さんだとしたら、
お客さん一人ひとりの特徴(性別・年代・来店頻度など)と、
購入した・しなかった
といったデータをエクセルなどに入力して、テーブルデータを作成します。
これを大量に行うことで、
AIの教師あり学習が実行できます。
現在は、POSデータをIDつきにすることで、
こういったデータは自動で作成できるようになっています。
では、AIデータの取得の2番目の
「対象の動作を監視する」
について、
どのような例が考えられるでしょうか?
AIデータ取得方法2
回答をみる
あなたがネットショップを運営しているとしますね。
あなたのWebサイトに訪問者があったら、
訪問者の行動を記録する方法があります。
訪問者がどんなページを何分くらい見て、
そのあと購入した、購入しなかった
などのデータを集めることができるはずです。
これらをAIに学習させることで、
どのようなページをより充実させれば売り上げがあがるのか?
といった示唆を得ることができるかもしれません。
では、AIデータの取得の3番目の方法
「Webサイトからダウンロードする」
には、どんな例があるでしょうか?
AIデータの取得方法3
回答をみる
インターネット上には、無数のAIデータが公開されています。
画像・音声・テキストデータから、
より専門的な目的のためのデータ、
例えば、医療のデータなどがインターネット経由で手に入ります。
(もちろんこの医療データは個人の医療データでなく、匿名化されたものになります)
これらを探して、ダウンロードすることで、
あなたのAIを学習させることができます。
では、AIデータの取得の4番目の方法
「すでにデータをもっている人からいただく」
には、どんな例があるでしょうか?
AIデータの取得方法4
回答をみる
例えば、ショッピングサイトの運営者がいたとします。
もっと売り上げを上げたいと思っているかもしれません。
ショッピングサイトには、訪問者のアクセスデータが蓄積されます。
何時にどのページにアクセスがあり、どんなボタンをクリックしたか
のようなデータです。
これらをAIに分析させることで、売り上げ貢献につながる知見が得られるかもしれません。
AI分析に適しているデータを既に持っている方とお話をして、
データをいただくというのも
データを手に入れるための1つの方法になります。
このようにして、データを手に入れることができるわけです。
では、データさえ手に入れば、
AIはうまく機能するのでしょうか?
あなたはどう思いますか?
AI・機械学習でデータを生かすには、3つの注意点があります。
これを知ることで、データをより効果的に活かすことができます。
また、データを集める前の段階から意識することで、
AIプロジェクト自体を成功させる重要なポイントになります。
AI・機械学習でデータを活かすための3つの注意点とは?
この先は会員限定になります。
会員の方はログインをお願いいたします。
登録がまだの方は、会員登録をお願いします。
>>> 会員登録はこちら
こちらもございます↓
↓こちら無料で読めます(Kindle Unlimited にご登録ください)