AI(人工知能)による「画像認識」は、「ディープラーニング」の登場により、
人の認識レベルを超える性能を達成し、 大きく注目されています。
また、将棋や囲碁の分野でも人工知能は大きく能力を向上しており、人類のチャンピオンに勝利するなど、私たちを驚かせました。
一見別のものに見える、画像と将棋・囲碁のAIですが、
実は裏では、どちらも、画像認識の仕組みを活用しているんです。
どういうことかと言いますと、
将棋や囲碁のデータのように、画像データでない場合も、
画像データの形式に整形することで、画像認識のように扱うことができるんです。
すると、ディープラーニングを活用することで、
画像認識のように性能向上が期待できる、という例が示されています。
つまり現在では、画像データに関係する人工知能の応用は、
画像認識だけにとどまらず、
(将棋や囲碁のように、全く別の)様々な分野で加速している状況です。
そこで本記事では、
- 画像認識ってなに?
- 人工知能が画像認識する仕組みとは?
- 人工知能が分類する仕組みってどうなっているの?
といったことについて知りたいあなたのために、
AIの画像認識の仕組みについて、サクッとまとめました。
本記事の概要
AI(人工知能)による画像認識「分類」の仕組みについて、サクッと学びたいあなたはこちらをどうぞ
画像認識は、いくつかの技術があります。
画像の領域を分割する「領域分割」や、
いくつかの画像同士の対応関係を発見する「マッチング」などがあります。
今回の記事では、画像認識で最も一般的な「分類」という技術に焦点をあててサクッとまとめたいと思います。
画像認識の「分類」とは?
画像認識には「分類」と呼ばれるタスクがあります。
これは、画像に含まれる要素が、
- どのカテゴリーになるのかを分類する
という技術になります。
具体的に説明しますね。
例えば、家族の写真を人間が見れば
画像内の要素を、人、ペット、背景、のように
カテゴリーに分けることができますよね。
これと同じことを人工知能にやらせるのが
画像認識の分類という技術になります。
(ちなみにカテゴリーは任意に決めることができます)
ここで、「カテゴリー」と「クラス」という言葉について整理しておきたいと思います。
「カテゴリー」は、人間が定義したような、
結果として私たちが欲しい分け方の表現になります。
「クラス」も物事の分け方を表した言葉なのですが、
以下の点でカテゴリーと違います。
画像認識では、入力としての画像情報をそのまま使うわけではありません。
画像データを処理して、変換した後に、認識を行うのが一般的です。
(詳しくは以下で説明するのですが)
画像認識では、入力を変換して得られた情報などについて、
似たものをひとまとまりにして扱う、といったことが有効になる場合があります。
そして、このひとまとまりにしたものそれぞれを「クラス」と呼びます。
以下に画像認識の簡単な流れと、クラス・カテゴリーの関係を示します。
入力:元の画像情報
↓
画像情報を変換し、クラスに分けて、分類しやすくする
↓
データを分類する
↓
出力:画像に関するクラス情報を得て、それをもとにカテゴリー情報に分ける
このように、カテゴリーは、最終的に私たちがほしい分類の仕方となります。
一方、クラスは、分類しやすいように便宜上使う、グループ分けした情報のそれぞれのもの
ということになります。
なぜ、わざわざ、クラスを考えるの?ってことですが、
カテゴリーに従って画像認識するよりも、
画像情報をいったん変換し、変換情報に素直に従ったクラスを使って分類したほうが、
画像認識アルゴリズムの都合上、分類性能がいい場合が多くなるからです。
なので、カテゴリーでなく、クラスで分類する、というわけなんです。
(他の理由としては、クラス情報は、人間が認識の意味を理解するのに役立つ補足的な情報を表現している場合があったりします)
最後に、
クラスに分類されて出てきた出力を、カテゴリーと対応させて答えにする、
といったことをして、ほしかったカテゴリーに基づいた分類が完了となります。
と、ここまでで、画像認識のざっくりした流れをご紹介しました。
ここからは、より具体的な画像認識の7ステップについて、
それぞれわかりしゃすく解説しています。
また各ステップで参考となる本もご紹介しています。
苦手なステップを効率的に補強したいあなたに役立つ内容となっています。
この先は会員限定になります。
会員の方はログインをお願いいたします。
登録がまだの方は、会員登録をお願いします。
>>> 会員登録はこちら