強化学習の最新アルゴリズムをサクッと学びたいあなたはこちらをどうぞ【速習 強化学習】

マルコフ決定過程（Markov decision process: MDP) について、数式をもちいた理論的な解説だけでなく、在庫管理問題（機会損失あり）の例が解説されており、他の応用として、輸送システム最適化、スケジューリング最適化、生産最適化などが挙げられています。また、工学での応用として最適制御問題があることや、情報理論での応用では最適符号化・動的チャネル割り当ての最適化・センサーネットワークがあり、金融での応用にはポートフォリオ最適化・オプション価格最適化などがあることが述べられています。

次に、MDP において最適な行動則をみつけるための方法として、価値関数の考え方が説明され、ベルマン方程式やベルマン最適方程式などが示されています。また、MDP を解くための動的計画法の解説がサクッとされています。

あとのパートを理解するための前提知識として役に立つ内容となっています。

第2章では、マルコフ報酬過程での価値関数の推定問題についての解説がされています。時間的差分学習（TD学習）による方法が、状態の価値関数の推定値がメモリに収まる場合と、収まらない大規模な場合についてまとめられています。メモリに収まるテーブルTD(0)法や、逐一訪問モンテカルロ法が説明され、それらの比較がなされています。状態数が多くなると収束が遅くなるTD(0)法に対して、モンテカルロ法では変わらないことが述べられています。そして、この２つを統一した手法としてTD(λ)法が紹介されています。

次に、大規模状態空間（各状態の推定値がメモリ上に収まらない）の場合について、関数近似を用いる方法が解説されています。関数近似の例としてテンソル積を使うもの、状態集約、タイルコーディング、ノンパラメトリック法などが説明されています。その後、関数近似を用いたTD(λ)法が疑似コードとともに解説されています。くわえて、勾配TD学習、最小二乗TD学習（LSTD)、最小二乗方策評価（LSPE）の説明と、それらの比較が解説されています。また、関数近似誤差と推定誤差のトレードオフについての解説もあり、手法の選択の指針を与えてくれる内容になっています。

第3章では、学習制御について、対話型の学習方法や、Q学習による直接法、Actor-critic 法が解説されています。

対話型学習とは、学習器がサンプルの分布に影響を与えることができる学習のことで、非対話学習よりも学習が簡単になることがあります。対話型学習では、バンディット問題やマルコフ決定過程において、探索活用並行学習（オンライン学習）や純粋探索学習（能動学習）の解説がされています。

直接法では、最適行動価値関数を直接近似する方法としてQ学習が解説されています。有限マルコフ決定過程でのQ学習のアルゴリズムの解説から、関数近似器を用いたQ学習について、疑似コードとともに説明がなされています。

Actor-critic 法では、方策評価が完全でなくても方策を更新していくアルゴリズムである一般化方策反復を用いています。Actor（行動器）と critic（評価器）の２つの相互作用について、Actorが現在の方策を改善し critic が方策を評価し、actor の方策改善を評価する、といった内容について解説されています。Critic の実装として、SARSA や LSTD-Q(λ)が、Actorの実装として、グリーディな方策改善や目的関数の曲面上を勾配法で登っていく方法が疑似コードとともに紹介されています。

第4章では、さらなる勉強のためにということで、参考文献、応用例、ソフトウェアがまとめられています。

付録Aでは、割引マルコフ決定過程の理論がまとめられています。

付録Bでは、TD(λ)法の前方観測的な見方と後方観測的な見方について、それらが等価であることが示されています。

付録Cでは、深層強化学習を含んだ最近の発展として、本書の原著が出版された2010年から邦訳版の出版（2017年）の間の、強化学習の最新の概観がまとめられています。

ディープラーニングの概要から、価値反復に基づく強化学習アルゴリズムの発展としてのDQN（Deep Q-network）や Double DQN、デュエリングネットワーク（dueling network）、優先順位付き経験再生（prioritized experience reply）がまとめられています。

方策反復に基づく強化学習アルゴリズムの発展として、A3C（asynchronous advantage actor-critic）、TRPO（trust region policy optimization）、GAE（generalized advantage estimator）が解説されています。

深層強化学習の囲碁AIへの応用として、AlphaGo について、強化学習問題としての囲碁、深層ニューラルネットワークの学習、深層ニューラルネットワークを使ったモンテカルロ木探索による着手の選択、として、AlphaGo のポイントについて、サクッと明確にまとめられています。

共立出版

本書は、強化学習の基礎から最新のアルゴリズムまで、サクッと学べる1冊となっています。

ただし、理論的な説明など数式も多く、線形代数や微積分、確率統計、マルコフ連鎖などの知識が必要です。

最新の論文を読めるようになりたい方、新しいアルゴリズムを実装したい方、さまざまな強化学習アルゴリズムのトレードオフを理解したいあなたなどにおすすめの本となっています。

ちなみに、原著もございます↓