アルファ碁が人類最高峰のプロ棋士に勝ったのが2016年のことでした。
その後、アルファ碁の強さの秘密の1つが、
「強化学習」の活用であることがわかりました。
強化学習は、正解のデータが必要な(教師あり)機械学習と異なり、
正解データがなくても、思考錯誤を通じて、よりよい行動を決定することができるようになります。
その点が従来の機械学習と大きく違う点で、
強化学習を活用することで、囲碁やゲームといった分野で、
人類の技能を超えるパフォーマンスを出すことが可能であることがわかりました。
強化学習の応用分野は、囲碁やゲームに限りません。
- 自動運転やロボット制御、
- 自然言語処理での逆強化学習・模倣学習、
- 医療応用での生体肝移植のタイミング最適化、
- 虚血性心疾患の治療過程のモデル化
- ・・・
など、枚挙にいとまがありません。
そこで、強化学習の最新アルゴリズムや、
アルファ碁などで使われた、深層強化学習との関連を理解できるとうれしいですよね。
強化学習のアルゴリズムを学びたい
最近のアルゴリズムにはどんなものがあるの?
深層強化学習では、強化学習はどのように使われているの?
といった内容を学びたいあなたにおすすめの本をご紹介します
本記事の概要
強化学習の最新アルゴリズムを学びたいあなたはこちらをどうぞ
本書は、強化学習の新しいアルゴリズムを、サクッと学べる1冊となっています。
確率的なシステムについて、マルコフ決定過程の枠組みで記述し、動的計画法で解けない大規模な問題を解くための手法という位置づけで強化学習が解説されています。
大規模な問題を扱うためのアイデアとしてサンプルや関数近似を活用し、それらと動的計画法との関連を知ることが重要だと述べられています。
注意する点として、解説を簡潔にするために、累積割引報酬和の期待値による指標とする結果のみを議論していたり、マルコフ決定過程や動的計画法の中身については、サクッと簡単に述べられています。本書付録には解説がありますが、詳しく学びたい方は他書で補うのがよいかと思います。
簡潔に書くメリットとして、20近くのアルゴリズムの疑似コードを中心として、より多くの手法の選択肢が提供されています。強化学習を実装したいエンジニアの方々には、強化学習の手法のトレードオフをサクッと理解できるようにまとめられています。
本書は3つのパートからなっています
最初のパートでは、マルコフ決定過程と動的計画法について、サクッと解説がされています。
マルコフ決定過程(Markov decision process: MDP) について、数式をもちいた理論的な解説だけでなく、在庫管理問題(機会損失あり)の例が解説されており、他の応用として、輸送システム最適化、スケジューリング最適化、生産最適化などが挙げられています。また、工学での応用として最適制御問題があることや、情報理論での応用では最適符号化・動的チャネル割り当ての最適化・センサーネットワークがあり、金融での応用にはポートフォリオ最適化・オプション価格最適化などがあることが述べられています。
次に、MDP において最適な行動則をみつけるための方法として、価値関数の考え方が説明され、ベルマン方程式やベルマン最適方程式などが示されています。また、MDP を解くための動的計画法の解説がサクッとされています。
あとのパートを理解するための前提知識として役に立つ内容となっています。
第2章では、マルコフ報酬過程での価値関数の推定問題についての解説がされています。時間的差分学習(TD学習)による方法が、状態の価値関数の推定値がメモリに収まる場合と、収まらない大規模な場合についてまとめられています。メモリに収まるテーブルTD(0)法や、逐一訪問モンテカルロ法が説明され、それらの比較がなされています。状態数が多くなると収束が遅くなるTD(0)法に対して、モンテカルロ法では変わらないことが述べられています。そして、この2つを統一した手法としてTD(λ)法が紹介されています。
次に、大規模状態空間(各状態の推定値がメモリ上に収まらない)の場合について、関数近似を用いる方法が解説されています。関数近似の例としてテンソル積を使うもの、状態集約、タイルコーディング、ノンパラメトリック法などが説明されています。その後、関数近似を用いたTD(λ)法が疑似コードとともに解説されています。くわえて、勾配TD学習、最小二乗TD学習(LSTD)、最小二乗方策評価(LSPE)の説明と、それらの比較が解説されています。また、関数近似誤差と推定誤差のトレードオフについての解説もあり、手法の選択の指針を与えてくれる内容になっています。
第3章では、学習制御について、対話型の学習方法や、Q学習による直接法、Actor-critic 法が解説されています。
対話型学習とは、学習器がサンプルの分布に影響を与えることができる学習のことで、非対話学習よりも学習が簡単になることがあります。対話型学習では、バンディット問題やマルコフ決定過程において、探索活用並行学習(オンライン学習)や純粋探索学習(能動学習)の解説がされています。
直接法では、最適行動価値関数を直接近似する方法としてQ学習が解説されています。有限マルコフ決定過程でのQ学習のアルゴリズムの解説から、関数近似器を用いたQ学習について、疑似コードとともに説明がなされています。
Actor-critic 法では、方策評価が完全でなくても方策を更新していくアルゴリズムである一般化方策反復を用いています。Actor(行動器)と critic(評価器)の2つの相互作用について、Actorが現在の方策を改善し critic が方策を評価し、actor の方策改善を評価する、といった内容について解説されています。Critic の実装として、SARSA や LSTD-Q(λ)が、Actorの実装として、グリーディな方策改善や目的関数の曲面上を勾配法で登っていく方法が疑似コードとともに紹介されています。
第4章では、さらなる勉強のためにということで、参考文献、応用例、ソフトウェアがまとめられています。
付録Aでは、割引マルコフ決定過程の理論がまとめられています。
付録Bでは、TD(λ)法の前方観測的な見方と後方観測的な見方について、それらが等価であることが示されています。
付録Cでは、深層強化学習を含んだ最近の発展として、本書の原著が出版された2010年から邦訳版の出版(2017年)の間の、強化学習の最新の概観がまとめられています。
ディープラーニングの概要から、価値反復に基づく強化学習アルゴリズムの発展としてのDQN(Deep Q-network)や Double DQN、デュエリングネットワーク(dueling network)、優先順位付き経験再生(prioritized experience reply)がまとめられています。
方策反復に基づく強化学習アルゴリズムの発展として、A3C(asynchronous advantage actor-critic)、TRPO(trust region policy optimization)、GAE(generalized advantage estimator)が解説されています。
深層強化学習の囲碁AIへの応用として、AlphaGo について、強化学習問題としての囲碁、深層ニューラルネットワークの学習、深層ニューラルネットワークを使ったモンテカルロ木探索による着手の選択、として、AlphaGo のポイントについて、サクッと明確にまとめられています。
本書は、強化学習の基礎から最新のアルゴリズムまで、サクッと学べる1冊となっています。
ただし、理論的な説明など数式も多く、線形代数や微積分、確率統計、マルコフ連鎖などの知識が必要です。
最新の論文を読めるようになりたい方、新しいアルゴリズムを実装したい方、さまざまな強化学習アルゴリズムのトレードオフを理解したいあなたなどにおすすめの本となっています。
ちなみに、原著もございます↓
こちらもございます↓
こちらの記事もございます↓
『「アルファ碁」の手法について、強化学習など基礎からシッカリわかりやすく学びたいあなたにチェックしてほしいおすすめ本はこちらです【アルファ碁解体新書】』
『「強化学習」と「深層学習」を組み合わせた「深層強化学習」の実装を学びたいあなたはこちらはいかがでしょうか【C言語】』
『将棋AIの第一人者が解説する人工知能「アルファ碁」と、深層学習・強化学習による人工知能の進化とは?』
『「フラクタル」とは?フラクタルの全体像をサクッと学びたいあなた、こちらはいかがでしょうか』