Oops! It appears that you have disabled your Javascript. In order for you to see this page as it is meant to appear, we ask that you please re-enable your Javascript!
スポンサーリンク

「画像認識」とは?画像認識にはどんな「種類」があるの?について学びたいあなたはこちらです

スポンサーリンク
画像認識とは 英語 種類 物体認識 クラス分類 インスタンス分類 シーン認識 物体検出 セマンティックセグメンテーション インスタンスセグメンテーション おすすめ
画像認識とは 英語 種類 物体認識 クラス分類 インスタンス分類 シーン認識 物体検出 セマンティックセグメンテーション インスタンスセグメンテーション
スポンサーリンク
スポンサーリンク

最近、人工知能の応用が私たちの生活に浸透してきています。

画像認識は、人工知能の活用で著しく進歩した分野の1つです。

スマホの普及によって、私たちは手軽に気軽に写真を撮ることができるようになり、

IT技術の進歩によって、多くの画像データが比較的容易に集めれるようになってきました。

加えて、パソコンの性能の向上によって、これまで不可能だった、何層にも重ねたニューラルネットワークの計算(深層学習・ディープラーニング)が可能になりました。

このディープラーニングを使うことで、

画像認識の精度は、タスクによっては人よりもいい結果を出せるようになっています。

画像認識を使った応用事例はどんどん出てきており、

画像認識を使ったソフトやアプリの開発も盛んになっています。

このような中で、

  • 画像認識とは?
  • 英語では何でいうの?
  • 画像認識の種類には、どんなものがあるの?

といった疑問を持つ方も多いかと思います。

 

そこで本記事では、画像認識の初心者の方向けに、

  • 画像認識とは?
  • 画像認識の種類

などについて、画像認識の種類を分類しながら、

それぞれ例とともに、わかりやすく解説します。

「画像認識」とは?画像認識にはどんな「種類」があるの?について学びたいあなたはこちらです

 

画像認識とは?

画像認識は、画像を認識することと書きますよね。

認識とは、意味を理解することの意味です。

なので、

「画像認識」とは、画像の意味を理解すること

と言えます。

 

例えば、画像の中に、

  • 人が映っていれば、それを人だと理解できる
  • 犬が映っていれば、それを犬だと理解できる
  • スカイツリーが映っていれば、スカイツリーだと理解できる

といったものが画像認識になります。

 

 

画像認識を英語で言うと?

「画像認識」は、英語で、

Image recognition(イメージリコグニッション)

 

「画像」は、英語で Image(イメージ)

「認識」は、英語で recognition(リコグニッション)

となります。

 

画像認識の「種類」には、どんなものがあるの?

画像認識には、実は、たくさんの種類があります。

 

画像認識の種類を理解するには、まず、

大きく分けて 3つあることを知っておくと便利です。

(1),  物体認識(object recognition)

(2),  物体検出(object detection)

(3),  シーン認識(scene recognition)

の3つです。

それぞれ説明していきますね。

 

 

物体認識(object recognition)とは?

物体認識とは、

写真などの画像の中にある「物体」を理解すること

です。

上で挙げた例

  • 人が映っていれば、それを人だと理解できる
  • 犬が映っていれば、それを犬だと理解できる

などは、物体認識の例になります。

 

物体認識は、大きく2つに細分化されます。

(a),  クラス分類

(b),  インスタンス認識

の2つです。

 

クラス分類とは?

クラスというのは、物事の概念の種類を言います。

例えば、あなたは猫を飼っていて、ミントと名前をつけていたとします。

このミントの写真を画像認識した時に、

クラス分類では、「猫」という出力を生成します。

ミントは猫という概念に含まれるので、「猫」が出力されるわけです。

ちなみに、もう少し細かい概念を出力する

「詳細物体認識」という手法もあります。

ミントがアメリカンショートヘアーという種類の猫だったら、

詳細物体認識では、出力は猫でなく、アメリカンショートヘアーを出力します。

より詳しい概念を出力するわけです。

 

インスタンス分類とは?

それに対して、インスタンス分類とは、

ミントの写真を画像認識した時に、

概念である「猫」でなく、「ミント」と出力を生成する方法になります。

エンパイアステートビルの写真を認識して、

「ビル」と出力するのでなく、

「エンパイアステートビル」

と出力するのがインスタンス分類になります。

 

 

 

以上から、

画像認識の物体認識には、

  • クラス分類では、概念を出力
  • 詳細物体認識では、より詳細な概念を出力
  • インスタンス分類では、固有名などを出力

といったものがあります。

 

物体検出(object detection)とは?

物体検出」では、

  • 物体の位置を四角い領域で囲んで示す

ことを行います。

画像内のどの領域に、その物体があるかがわかるわけです。

 

「物体認識」では、画像になる物体が何であるか、どんなものかを出力するだけでした。

画像内の位置まで示すのが物体検出、になります。

 

物体検出では、物体と背景を境界で切り分けるタスクがあり、

「セマンティックセグメンテーション(semantic segmentation)」

と呼びます。

 

物体と背景を切り分けるといっても、

物体が重なっている画像もありますよね。

そういった場合は、

  1. 物体と背景を境界で切り分ける
  2. 物体と物体を境界で切り分ける

の2つを行うことで物体を認識できます。

これを

インスタンスセグメンテーション(instance segmentation)

と呼びます。

 

このように、

物体検出には、

  • 物体の位置を四角で囲んで示すタイプ
  • 物体と背景との境界を示すタイプ
  • 物体と物体や、物体と背景との境界を示すタイプ

といった種類があります。

 

 

 

 シーン認識(scene recognition)とは?

シーンと言うと、映画のワンシーンのような言い方がありますが、

そのシーンと同じ意味になります。

 

シーン認識」とは、

画像の中の物体などの「意味」や「状況」などの総合としての状態を理解すること

です。

 

ちょっとわかりにくいかもしれませんので、以下に例を示しますね。

 

例えば、ある画像に男女が写っていて、女性が泣いているとします。

  • この男女が兄弟であれば、家族に何か悲しいことがあった
  • この男女が恋人同士であれば、別れ話をしている

のように、同じ画像でも、

  • 男女の関係性や文脈
  • 一般的に男女がいて女性が泣く場合はどんな場合か?のような常識的な知識

などを総合的に判断する必要があります。

 

このように、

シーン認識では、

物体同士の関係や文脈、前提知識(常識)なども理解する必要があります

 

画像内の情報以外の情報が必要となるため、

より高度な画像認識になります。

 

 

シーン認識に似たものとして、「画像キャプション生成」という技術もあります。

画像キャプション生成」では、

画像の内容を、テキストとして出力させます。

 

テキストを生成するなんて、シーン認識に似てないじゃない?

と思われるかもしれません。

画像キャプションを生成する仕組みに注目してもらえれば、

シーン認識に似ていることがわかっていただけるかと思います。

 

以下に具体例を示しますね。

例えば、サバンナでライオンがシカを追いかけている写真があったとします。

人間が見れば、これは狩りの写真だね、と理解できるかと思います。

なので、これのキャプション例としては、

「ライオンがシカを狩りしている」

のようなものが適切かと思います。

 

これを画像認識で人工知能にやらせると大変なんです。

大変さを理解してもらうために、

これがどのような仕組みで生成されるかを考えてみます。

画像の内容をキャプションにするので、

まずは、画像内の物体や状態を認識するのが必要でよね。

上で説明したクラス分類などの技術を使い、

  • ライオンやシカの物体認識
  • 走っていることの認識
  • サバンナの中

といったことを認識します。

 

しかしこれだけでは、キャプションとして使える情報は、

「ライオン・シカ・走っている」

のようなものだけなので、不十分ですよね。

 

なのでこれらに加えて、

  • ライオン「が」シカ「を」追いかけている

のようなライオンとシカの

  • 関係性の情報」が不可欠

となります。

(この場合、どちらが主語なのか、といった関係性ですね)

 

さらに、

サバンナでライオンがシカを追いかけている状況

を、常識的な前提知識と照らし合わせます

するとこれは

  • ライオンの狩りの画像

と理解することに至ります。

 

以上の情報を総合することで、

キャプションは

「ライオンがシカを狩りしている」

として生成することが可能になるわけです。

 

このように、画像キャプション生成では、

画像の持つシーンを認識する必要があり、

物体認識よりも、より高度な画像認識となることがわかっていただけるかと思います。

 

 

 

 

というわけで、本記事では、

  • 画像認識の初心者の方向けに、
  • 画像認識とは?
  • 画像認識の種類

などについて、

  • 物体認識(クラス分類・インスタンス分類・詳細物体認識など)
  • 物体検出(セマンティックセグメンテーション・インスタンスセグメンテーション)
  • シーン認識(画像キャプション生成)

など、画像認識の種類を分類し、

具体例とともに、わかりやすく解説しました。

 

 

 

こちらもございます↓

 

 

 

こちらの記事もございます↓

画像処理をPythonで学びたいあなたにおすすめの書籍はこちらをどうぞ【aiやopenCVもどうぞ】

 

画像処理アルゴリズムを学びたいあなたにおすすめの書籍はこちらです

 

【画像処理 検定】画像処理エンジニア検定の日程や問題、受験資格、難易度、おすすめの対策本などを知りたいあなたはこちらをどうぞ

 

タイトルとURLをコピーしました