ディープラーニングの計算量を減らしたい!
精度は保ちたい!
と思われる方におすすめの方法として、
「転移学習」
があることをご紹介しました↓
『【ディープラーニング 転移学習】深層学習の計算コストを下げれる「転移学習」とは?転移学習で使う「学習済みモデル」の代表例とその入手方法とは?【機械学習 転移学習】』
転移学習は、過去に学習した結果を転用するという考え方でして、
機械学習の言い方をすると、
「学習済みモデル」
を使って、新しい結果を出すことになります。
なので、学習済みモデルが必要になるのですが、
- どんな学習済みモデルがあるの?
- 一覧になってるとうれしいんだけど?
- どうやって手に入れたらいいの?
と思われる方も多いかと思います。
実は、学習済みモデルをまとめたサイトが存在しています。
そのサイトをご紹介し、中身について概要をまとめたいと思います。
本記事を読むことで、
ディープラーニングなどの機械学習の転移学習で必要となる
学習済みモデルについて
- どんなものがあるか
- 一覧になっているサイト
- どうやって手に入れればいいのか
について理解できます。
本記事の概要
【ディープラーニング 転移学習】「転移学習」のための「学習済みモデル」が集められた「Model Asset Exchange」について、サクッと学びたいあなたはこちらをどうぞ(画像編)【機械学習 転移学習】
「Model Asset Exchange」とは
「Model Asset Exchange(以下MAXとします)」とは、
ディープラーニングの学習済みモデルを集めたサイトです。
IBMが運営しており、オープンに使える学習済みモデルが、30種類ほど公開されています。
サイトはこちらになります。
目標として、
最先端のディープラーニングモデルについて、
開発者やデータサイエンティストが
より簡単に見つけ、使えるようにすること
が掲げられています。
ちなみに、2018年の3月に立ち上げられています。
学習済みモデルは、30種類ほど
- 画像認識分野だけでなく、
- 自然言語処理分野
- 音声認識分野
- 時系列解析分野
など様々なものが公開されています。
加えて、学習済みモデルだけでなく、
- 初心者のための記事やチュートリアル
- 開発者向けの開発方法やモデルの活用方法
などもまとめられています。
- MAXはどうやって使えばいいの?
といった方も、チュートリアルなどを参考に使い方を学ぶことができます。
本記事では、画像に対する学習済みモデルについて、それぞれサクッとご紹介します。
「画像」の学習済みモデル
画像に関係する学習済みモデルには、
- 画像分類(image classification)
- 物体検出(object detection)
- 超解像(super resolution)
- 画像加工(image modification)
といった分野があります。
それぞれについて、モデルをご紹介していきます。
「画像分類」系の学習済みモデル
Image Classifier – ResNet50
「画像分類」のモデルです。
第1世代のdeep residual networkで画像内の物体を認識します。
DLモデルには、
- ResNet-50構造によるdeep convolutional net
訓練データセットには、
- ImageNet-2012
が使われています。
Image Classifier – Inception ResNet v2
「画像分類」のモデルです。
画像を入力して、ImageNetの1000種類のクラスへのそれぞれの確率を出力します。
DLモデルには、
Inception-ResNet-v2構造のDeep convolutional net
訓練データセットには、
ImageNet-2012
が使われています。
Image Breast Cancer Mitosis Detector
「画像分類」のモデルです
細胞群を撮影した顕微鏡のスライドガラスの画像を入力し、
その中に乳がん細胞があるかどうか
を出力します。
DLモデルには、
- modified ResNet-50
訓練データセットには、
- TUPAC16 auxiliary mitosis dataset
が使われています。
Sports Video Classifier
「ビデオ分類」のモデルです。
ビデオを入力すると、
スポーツの活動の487のクラスの確率が出力されます。
DLモデルは、
- deep 3D convolutional net
訓練データセットは、
- Sports-1M dataset
が使われています。
「物体検出」系の学習済みモデル
Object Detector
「物体検出」のモデルです。
COCO Datasetにおける、80クラスのどれかを出力します。
DLモデルは、
- 画像の特徴抽出にdeep convolutional net を使い、それにさらに物体検出用の畳み込み層を加えたモデル
になります。
このモデルは、SSD MobileNet V1 物体検出モデルがベースになっています。
訓練データセットは、
- COCO dataset
が使われています。
Human Pose Estimator
「物体検出」のモデルです。
画像の中から、ヒトを認識し、それぞれの姿勢まで推定できます。
ヒトを認識した後で、各パーツ(鼻・首・目・肩・肘・手首・ヒップ・膝・足首)を認識します。
各パーツのペアからポーズを推定します(Open Pose Modelと呼ばれます)。
Nucleus Segmenter
「物体検出(Object detection)」のモデルです。
顕微鏡画像の中から、
- 核がどこか
- 各画素がどの核のものか
を同定することができます。
DLモデルは、
- Mask R-CNN
訓練データセットは、
- Broad Bioimage Benchmark Collection(Accession number BBBC038, Version 1)
が使われています。
Image Segmenter
「セグメンテーション」のモデルです。
まず画像中の物体を認識し、
各画素がどの物体に属しているかを同定します。
2つのDLモデルがあります。
- 「xceptionモデル」:高精度だけど時間がかかる
- 「MobileNetV2モデル」:精度は落ちるけど高速
訓練データセットは、
- PASCAL VOC 2012
が使われています。
あなたがこのモデルを使う時には、どちらのモデルを使いたいかを記述する必要がありますのでご注意ください。
Scene Classifier
「シーン分類」のモデルです。
画像がどんな場所かについて分類します。
DLモデルには、
Places365-CNN モデルをベースにして、
ResNes構造のdeep convolutional netを
ImageNet-2012
で事前学習しました。
その後、訓練データセット
- Places365-Standard dataset
で fine-tuningしたものになります。
「超解像」の学習済みモデル
Image Resolution Enhancer
「超解像(Super resolution)」のモデルで、画像を4倍のスケールで高解像にできるとのことです。
Deep Learning(DL)モデルには、
- Generative Adversarial Network(GAN)
訓練データセットは、
- 60万枚の画像(OpenImages V4 datasets)
になります。
「画像加工」系の学習済みモデル
Image Caption Generator
「画像キャプション生成」モデルです。
一定の語彙を使い、画像のキャプションを生成します。
DLモデルには、
encoderモデルとして、
- deep convolutional net(Inceptionv3)をImageNet-2012でトレーニングしたもの
decoderモデルとして、
- LSTM network
が使われています。
Fast Neural Style Transfer
「画風変換」のモデルです。
入力画像を、別のスタイルの画像に変換して出力します。
DLモデルには
- ResNet構造のdeep feed-forward convolutional net
訓練データセットには、
- CPCP2014と4つの異なるスタイルの画像
が使われています。
Image Colorizer
「自動着色」のモデルです。
グレースケール画像を入力すると、カラー画像を得られるモデルです。
DLモデルには、
- Generative Adversarial Network(GAN)
訓練データセットには
- COCO dataset
が使われています。
pix2pix モデルをベースに実装されています。
空間的な変換のできる学習済みモデル
Spatial Transformer Network
特徴マップなどを、ネットワークの中で、
空間的に並進・回転など調節できるモデルです。
文字や物体認識などで、
斜めになっている部分を回転させて、
まっすくすることができるモデルです。
本手法では、
- 既存のモデルにニューラルネットの層を追加する感じで使えるモデルになります。
訓練データセットは、
- 散らかしたMNIST(手書き文字データセット)
が使われています。
というわけで、本記事では、
ディープラーニングの学習済みモデルについて
Model Asset Exchangeの中から、
画像系のものについて、14モデルご紹介しました。
(画像系以外の「音声」「自然言語」などは、また別の記事で紹介する予定です。SNSなど登録しておけば見逃さないかと思います。)
こちらもございます↓
こちらもございます↓
『「機械学習」に関する記事のまとめ(目次)はこちらからどうぞ』
『「画像処理」や「画像認識」に関する記事の一覧(目次)はこちらです』
↓こちら無料で読めます(Kindle Unlimited にご登録ください)