BERT（ディープラーニング）による自然言語処理は、どんなデータで評価されたの？どんな応用ができそう？

PyTorch自然言語処理プログラミング word2vec/LSTM/seq2seq/BERTで日本語テキスト解析! (impress top gearシリーズ)

インプレス

BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門

ボーンデジタル

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

機械学習・深層学習による自然言語処理入門 (Compass Booksシリーズ)

本記事の概要

BERT（ディープラーニング）による自然言語処理は、どんなデータで評価されたの？

BERTとは

BERTは、Bidirectional Encoder Representations from Transformers

の頭文字をとったディープラーニングモデルです。

これまでのディープラーニングによる自然言語処理では、

注目単語の前方か後方かどちらか１方向の文脈情報の使用のみで学習されていました。

BERTの特徴の１つは、注目する単語の、前後の文脈の両方（Bidirectional）について学習している点にあるということです。

今後どのように応用されていきそうか興味が湧いたので、

どんなデータセット
どんなタスク
どのくらいの性能

が報告されたのかを見てみました。

BERTは、多様なデータセットで評価されていました

これまでの自然言語処理の多くは、タスクごとに学習を行い性能を評価することが多いです。

それに対して、BERTでは、タスクごとに区別することなく適用して、どのタスクにも良い性能を発揮した、ということです。

各タスクで人間のスコアを超えた点も価値がありますが、

より汎用的なモデルとして成功している点も、すばらしい点の１つだと感じました。

では具体的に、どのような自然言語処理のタスクで性能が評価されたのかについて、

BERTで使用されたデータセットとタスク内容をご紹介します。

今回の論文では、大きく分けて、４つのベンチマークセットが使われていました。

SQuAD：The Standford Question Answering Dataset
NER: CoNLL 2003 Named Entity Recognition dataset
SWAG：The Situations With Adversarial Generations dataset
GLUE：The General Language Understanding Evaluation benchmark

(1), SQuAD：The Standford Question Answering Dataset

スタンフォード大が提供している、約10万ペアのクラウドソーシングの質問応答ペアデータセットです。

入力として、「質問」と「Wikipediaの段落」を使います。

例えば、質問としては、

「Where do water droplets collide with ice crystals to form precipitation?」

（水滴が雨になるには、氷の結晶と、どこで衝突しますか？）」

Wikipediaの段落としては、以下のものを入力します。

「… Precipitation forms as smaller droplets coalesce via collision with other rain drops
or ice crystals within a cloud. …」

（小さい水滴としての雨は、他の降雨か氷の結晶と、雲の中で衝突することによって形成されます）

これらを入力として学習し、答えを出力します。上の例ですと

「within a cloud」

（雲の中）

が正解となります。

このような質問応答ペアが約１０万ペア用意されているデータセットになります。

(2), NER: CoNLL 2003 Named Entity Recognition dataset.

20万のアノテーションされた固有表現のデータセットです。

Named Entity Recognition（固有表現抽出）とは、文中にある、固有名詞や日付、時間、数量など、あらかじめ定義された固有表現分類に分類することをいいます。

固有表現抽出は、例えば日本語では、文を単語に分解するときなどに活躍します。

文を形態素解析などで単語に分けるときに、固有表現が未知の語として処理されるため、解析がうまくいかないことがあります。

固有表現は、１つひとつ登録して処理する必要があります。

大量のデータに対してそれでは手に負えません。

そこで、固有表現を一括して処理できるように、固有表現の自動抽出が望まれています。

本データセットは、固有表現抽出のためのデータセットになります。

(3), SWAG：The Situations With Adversarial Generations dataset

約11万の完結したペア文例集で、常識を使いながら推論するためのデータセットです。

ある文の続きについて、４つの可能性の中から、常識的に正しいものを選ぶタスクとなっています。

例えばある文として、以下のものが与えられます。

A girl is going across a set of monkey bars. She
（少女は、一連の雲底を横切っています。彼女は）

この続きとして、常識的に正しいものをしたの４つの中から選ぶ、というものになります。

(i) jumps up across the monkey bars.
（雲底で跳び上がります）

(ii) struggles onto the bars to grab her head.
（頭をつかむために、雲底でもがいています）

(iii) gets to the end and stands on a wooden plank.
（終わりまで行き、木の板の上に立ちます）

(iv) jumps up and does a back flip.
（跳び上がり、宙返りをします）

こういったデータが11万件含まれたデータセットになります。

(4), GLUE：The General Language Understanding Evaluation benchmark

こちらは、自然言語処理のためのデータセットの集合体です。

９つのデータセットが含まれています。

今回の論文では、そのうちの８個のデータセットを用いています。

詳しくは以下になります。

(1), MNLI：Multi-Genre Natural Language Inference

約43万の含意関係に関するテキストペアデータです

（含意・矛盾・中立のどれかを選びます）

(2), QQP：Quora Question Pairs

　２つの質問が同じ意味かどうかを判定します

(3), QNLI：Question Natural Language Inference

　質問応答データセットで、質問と文は、正しい答えを含んでいるかどうかを判定します

(4), SST-2 The Stanford Sentiment Treebank

　映画の感想の感情分析で、良いか悪いかを判定します

(5), CoLA The Corpus of Linguistic Acceptability

　使われている英語が、言語学的に受け入れれるかどうかを判定します

(6), STS-B The Semantic Textual Similarity Benchmark

ニュースの見出しなどについての感想のペアが、意味論的に意味が一致するかどうかを判定します

(7), MRPC Microsoft Research Paraphrase Corpus

オンラインニュースから自動抽出された文のペアが、意味論的に同じ意味かどうかを判定します

(8), RTE Recognizing Textual Entailment

文のペアに含意関係があるかどうかを判定する（ (1)のMNLIより少数のデータセットになります）

(9), WNLI Winograd NLI is a small natural lan- guage inference dataset

今回の論文では、除外されています。

論文には、これらのデータセットそれぞれについて、

BERTとこれまでの手法の結果が比較してまとめられています。

それぞれのタスクは、BERTによって、どれも性能が上がっているのですが、

(5),CoLAと (8), RTE のタスクで、特にスコアが上がっていました。

言語学的な問題や、ペアの文の含意関係を判定する問題について、より得意になったと言えます。

マイナビ出版

PyTorch自然言語処理プログラミング word2vec/LSTM/seq2seq/BERTで日本語テキスト解析! (impress top gearシリーズ)

インプレス

BERTによる自然言語処理入門: Transformersを使った実践プログラミング

オーム社

BERTは、人を超えたの？

Twitterを見ていると、

BERTが人間の理解力を超えた
自然言語処理でもブレークスルーになるのでは

といった意見がありました。

論文中のデータセット内で、確かに人間のスコアを超えています。

また、どのタスクにも通用するモデル、ということで応用的な価値が高いのではないかと思います。

ただ人間の理解力を超えた、というのは、「理解力」をどう考えるかで変わるのかなと思いました。

東ロボ君の開発を通じて、読解力という観点からの考察をされた本に以下のものがあります。

AI vs. 教科書が読めない子どもたち

東洋経済新報社

『Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing』

本書では、読解力について、数学的な観点から考察があり、数学には意味を記述する方法がまだない、とのことです。

これまでの人類の歴史の中での（数学的な）発見すべては、

「論理」もしくは「確率・統計」に収まります。

BERTなどのディープラーニングは、大量のデータから傾向を見出す方法ですので、確率・統計に立脚した手法といえます。

データから、現象のパターンが分かったとしても、意味を記述する方法がない以上、それを理解したことにはならない、

といった意味合いのことが書かれています。

本書には続編が出ています↓

東洋経済新報社

BERTの発表によって、

「チューリングテスト」や「中国語の部屋」で知られるような、

「理解とは？」といった問題が再び問われた点も重要なポイントかと思います。

私はディープラーニングを使うことで（たとえプラグマティックにでも）

より良いものができれば、それはいいことだと思います。

新しい化合物がガンに効くことがわかったとします。

でもそれが、体の中でどのような仕組みで効いているかわからない。

（理解はしたいですが）

とりあえずはそれでいいのではないかと思います。

というわけで、本記事では、BERT（ディープラーニング）による自然言語処理について、

どんなデータで評価されたの？について、

データセットなどを見ながらサクッとまとめました。

これから自然言語分野でも、応用が加速されるのではないでしょうか。

（Google AI ブログ）

（論文）

『BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding』

こちらもございます↓

BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門

ボーンデジタル

機械学習・深層学習による自然言語処理入門 (Compass Booksシリーズ)

マイナビ出版

ゼロから作るDeep Learning ❷ ―自然言語処理編

オライリージャパン

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)

講談社

PythonとKerasによるディープラーニング

マイナビ出版

PyTorchで始める深層学習 ――数式なしで基礎から実装まで

リックテレコム

現場で使える！PyTorch開発入門深層学習モデルの作成とアプリケーションへの実装

現場で使える！PyTorch開発入門深層学習モデルの作成とアプリケーションへの実装 (AI & TECHNOLOGY)

翔泳社

Deep Learning with PyTorch: A practical approach to building neural network models using PyTorch

Deep Learning with Pytorch

Packt Publishing

PyTorch Deep Learning Hands-On: Build CNNs, RNNs, GANs, reinforcement learning, and more, quickly and easily (English Edition)

Hands-On Deep Learning with PyTorch: Getting to know Facebook’s Deep Learning Framework (English Edition)

Packt Publishing

Natural Language Processing with Pytorch: Build Intelligent Language Applications Using Deep Learning

Natural Language Processing with PyTorch: Build Intelligent Language Applications Using Deep Learning

O'Reilly Media

Deep Learning with PyTorch Quick Start Guide

Deep Learning with PyTorch Quick Start Guide: Learn to train and deploy neural network models in Python

Packt Publishing

『「自然言語処理」を学びたい人におすすめの良書、１０冊はこちらです』

こちらもございます↓

『「機械学習」に関する記事のまとめ（目次）はこちらからどうぞ』

『「画像処理」や「画像認識」に関する記事の一覧（目次）はこちらです』

『「Python」に関する記事の一覧はこちらです』

『「数学」の記事一覧をこちらにまとめました』

↓こちら無料で読めます

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)