「強化学習」を学びたいあなたにチェックしてほしい良書、７冊はこちらです

「強化学習」は、お手本のいらない学習方法です。

強化学習は、エージェントと呼ばれる学習者が行った行動の結果について、

報酬としてフィードバックすることで、

行動の評価をし、

より報酬の高い行動を選べるように「強化」していく学習方法です。

エージェント？ってなに？

と思われるかもしれません。

エージェントとは、

あなたの代理人

というイメージで捉えてもらえばいいかと思います。

あなたが強化学習で解決したい課題があった時に、

あなたの代理で解決策を提案してくれる代理人です。

といっても、エージェントは、人間のことではなく、

コンピュータプログラム中の仕組みのこと

になります。

え？人間でなく、プログラム？
どういうこと？

と思われるかもしれません。

比較のために、まず人間が課題解決するときのプロセスを考えてみますね。

あなたが解決したい課題には、

現状や、現状を取り巻く周囲の状況があるかと思います。

あなたが課題を解決するなら、

現状を理解し、
何らかの判断をし、
判断に基づいて行動する
行動の結果に基づいて次の行動を修正する

といった過程を経るのではないでしょうか。

エージェントの場合、（あなたほど精緻ではなくても）

認知する（現状の理解）
判断する
行動する
行動による結果を評価して行動ルールを修正する

といったプロセスを経て、課題解決に最適な方法を提案してくれます。

つまり、強化学習では、

人間の課題解決と同じプロセスをプログラミングしているわけです。

強化学習プログラム内の行動ルール改善の仕組みのことをエージェントと呼んでいます。

強化学習と他の機械学習はどう違うの？

と思われるかもしれません。

強化学習が他の教師あり学習と比べて違うのは、

学習する時に、正解がなくてもいい

ことです。

あなたが解決したい課題について、

こういう行動をすると、あなたに望ましい未来になる

のように、正解となる行動がわかる状況はほぼないのではないでしょうか。

なので、

正解かはわからない状況で、いかにいい判断をするか

というのがポイントになります。

（正解（教師）がないという点が教師あり学習との決定的な違いになります。）

強化学習は、

正解がわからない中で、
報酬を頼りに、
より良い行動のためのルール

をより改良していくプロセスになります。

報酬という言葉には、短期的なものと長期的なものがあります。

また、時間軸に沿って、トータルとして得られる報酬の総和、という考え方もあります。

これらをいいバランスで最大化するように行動選択を最適化していくのに、さまざまなアルゴリズムが提案されています。

強化学習自体は古くから提唱されていたアイデアでしたが、

近年のディープラーニングとの組合せにより、優れた性能を示すことができることがわかり、脚光を浴びています。

囲碁のトッププロを敗った「アルファ碁」は、強化学習の探索空間を深層学習により近似して、計算可能な規模に落とし込むことに成功しました。

教師あり学習と比較して、強化学習は、膨大なデータを必要としない特徴があり、

データ収集だけでなく、試行錯誤の質と量も重要な要素となっています。

というわけで、これから強化学習のアルゴリズムを活用して、

これまでのパフォーマンスを大きく上回る例が多数出てくることが考えられます。

そこで本記事では、

強化学習ってなに？
強化学習を基礎からシッカリ理解したい
強化学習のアルゴリズムはどうなっているの？

といった

強化学習の初学者の方
専門的な内容を理解したい方
強化学習を実装して仕事に活かしたいあなた

のために、強化学習をサクッと学べる良書をご紹介します。

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

「強化学習」を学びたいあなたにチェックしてほしい良書、７冊はこちらです

人工知能はどのようにして 「名人」を超えたのか？―――最強の将棋ＡＩポナンザの開発者が教える機械学習・深層学習・強化学習の本質

最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み

強化学習と深層学習 C言語によるシミュレーション

実装 強化学習: Cによるロボットプログラミング

ロボットインテリジェンス―進化計算と強化学習 (図解ロボット技術入門シリーズ)

強化学習

強化学習 (機械学習プロフェッショナルシリーズ)

これからの強化学習

機械学習スタートアップシリーズ Pythonで学ぶ強化学習 入門から実践まで (KS情報科学専門書)

強化学習アルゴリズム入門: 「平均」からはじめる基礎と応用

速習 強化学習 ―基礎理論とアルゴリズム―

人工知能はどのようにして　「名人」を超えたのか？―――最強の将棋ＡＩポナンザの開発者が教える機械学習・深層学習・強化学習の本質

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

実装強化学習: Cによるロボットプログラミング

機械学習スタートアップシリーズ Pythonで学ぶ強化学習入門から実践まで (KS情報科学専門書)

速習強化学習 ―基礎理論とアルゴリズム―