近年の人工知能ブームのブレークスルーの1つは「画像認識」から始まりました。
画像認識自体は昔からあるタスクで、これまでも研究されてきたのですが、
「ディープラーニング」の登場により、
人工知能が、人の認識レベルを超える性能を達成し、 大きく注目されています。
その結果、現在では、画像データに関する人工知能の応用が一気に加速しています。
そこで本記事では、
- 画像認識ってなに?
- 画像認識の技術にはどんなものがあるの?
- 人工知能が画像認識する仕組みってどんな感じ?
といったことについて知りたいあなたのために、
AIの画像認識の基本的な概要について、サクッとまとめました。
本記事の概要
AI(人工知能)による画像認識について、サクッと学びたいあなたはこちらをどうぞ
単に画像認識といっても、いくつかの技術がありますので、 まずはそれらを簡単にまとめたいと思います。
画像認識とは
画像認識の「認識」は、たくさんの画像の中から、特定の希望のものを識別する、というものになります。 画像認識は、平たくいうと、
- 画像に写っているものは、〇〇のグループに属する
- 画像には、A, B, C が写っている
といったことを実現するタスクのことです。 これができると、
- スマホアプリでは、顔認識や画像の修正など
- 小売業では、レジでの商品認識による無人レジ
- 医療分野では、画像診断、CTなどのコンピュータ断層法
- 気象分野では、天気予報などで活躍する衛星映像の画像のリモートセンシング画像処理
- 製造業では、目視検査の自動化や自動運転技術
といった応用が可能となります。 画像認識は、多くのものが実用化されており、非常に重要な技術であることがわかっていただけたかと思います。
画像認識を理解するには、いくつかの技術要素を知っておくと役に立ちます。
ざっくり言うと、以下の技術があります。
- 分類
- 領域分割
- マッチング
以下でそれぞれ簡単に説明したいと思います。
画像認識の「分類」技術とは
分類は、私たちが普段使う分類と同じ意味です。
ある画像を、多くの画像の中の、どれかのカテゴリー(クラスと呼ばれることもあります)に対応させることを指しています。
りんごの画像があった時、食べ物・動物・本のカテゴリーがあったら、 食べ物のカテゴリーに対応させる、ことを画像認識の分類タスクといいます。
これを応用すると、例えば、みかんを大きさと色合い別に自動分類することができます。
みかんがベルトコンベアに乗って流れてくるところにカメラをセットしておき、 その画像の色をや大きさを認識させます。
認識結果をもとに、あらかじめ決めた等級などに分類させることができるわけです。
画像認識の「領域分割」技術とは
領域分割は、画像を分割する技術で、 画像中の色や明るさや物体の質感などの特徴に基づいて、画像を分割します。
領域分割は、画像処理でもよく使われる技術で、 画像を画像平面の情報に基づいて、領域を分割していきます。
例えば、隣合う画素の濃度差が大きいときに、それぞれの画素を別の領域にする、といった感じで分割されたりします。
すると、建物が写っている写真で、建物の領域だけ切り出す、といったことができます。
領域分割での物体の切り出しは、(それだけではないのです)画像の平面情報に基づいて行われるイメージになります。
1つ目で紹介した「分類」でも、画像中の物体を切り出して理解する必要があります。
分類での切り出しは、画像の直接的な情報ではなく、画像の特徴量を考え、特徴量のクラスタリングによって物体を切り出す感じになっています。
領域分割は、画像を直接分割するイメージで、分類の場合には特徴量に変換した後で分割する、といった違いがあります(これらの中間的な方法なども多数開発されています)。
画像認識の「マッチング」技術とは
マッチングという言葉も、私たちが日常使っているマッチングと同じ意味です。
例えば、転職を考えている方は、希望する職とのマッチングが大事のように使うかと思います。
このマッチングは、 希望する職の「パターンと一致する」ような転職先を考える という意味がと思います。
画像認識によるマッチングも同じことで、 ある画像の中にあるパターンが、他の画像群のパターンの中で、一致しているものを探し出すというものです。
画像認識のマッチングの例としては、OCRなどの文字認識や数字認識があります。
数字認識では、ある数字が、0、1、2・・・・9の10個の数字のどれかを調べるわけですが、 大量の数字のデータの中から、
- 0のパターン
- 1のパターン
- 2のパターン
- ・・・・
- 9のパターン
を見つけておき、新しく来た数字がどのパターンと一致するかを調べます。
3のパターンと近ければ、その画像が示す数字は3である、のように認識するわけです。
文字の認識でも、それぞれの文字についてパターンを調べておき、新しい文字がどのパターンに近いかを検討することで、どの文字かを認識するわけです。
他にも、特定の形状検出や、画像の位置合わせなど、幅広く使えるアルゴリズムです。
というわけで、本記事では、AI(人工知能)による画像認識の概要について、 分類、領域分割、マッチングといった点から、サクッとまとめました。
AI(人工知能)による画像認識を学びたいあなたにおすすめの本はこちらです
オリジナルの画像認識AIを簡単に作ろう!
はじめてのパターン認識
ディジタル画像処理改訂新版
画像認識 (機械学習プロフェッショナルシリーズ)
詳解 OpenCV 3 ―コンピュータビジョンライブラリを使った画像処理・認識
画像認識の極み ディープラーニング 2018/05/07 (2018-05-07) 雑誌
Rによる画像処理と画像認識: 動かしながらしくみを理解する
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
第2版Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
やさしいPython入門
人工知能とは (監修:人工知能学会)
図解 人工知能大全 AIの基本と重要事項がまとめて全部わかる
図解・ベイズ統計「超」入門 (サイエンス・アイ新書)
完全独習 ベイズ統計学入門
ベイズ統計の理論と方法
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
何万件ものデータやピボットテーブルで苦しんでいる人のための Excel多量データ整形テクニック
↓こちら無料で読めます
ちなみにこちらでご紹介したシリーズは、Kindle Unlimitedの登録することで、
無料で読むことが可能です。
お試し登録(解約できて無料)をしてみてはいかがでしょうか(初回30日間無料で体験できます)↓
こちらもございます↓
『「機械学習」に関する記事のまとめ(目次)はこちらからどうぞ』
『「画像処理」や「画像認識」に関する記事の一覧(目次)はこちらです』