「強化学習」を学びたいあなたにチェックしてほしい良書、7冊はこちらです

強化学習 おすすめ 本 教科書 参考書 おすすめ

「強化学習」は、お手本のいらない学習方法です。

強化学習は、エージェントと呼ばれる学習者が行った行動の結果について、

報酬としてフィードバックすることで、

行動の評価をし、

より報酬の高い行動を選べるように「強化」していく学習方法です。

 

エージェント?ってなに?

と思われるかもしれません。

エージェントとは、

  • あなたの代理人

というイメージで捉えてもらえばいいかと思います。

あなたが強化学習で解決したい課題があった時に、

あなたの代理で解決策を提案してくれる代理人です。

 

といっても、エージェントは、人間のことではなく、

コンピュータプログラム中の仕組みのこと

になります。

 

  • え?人間でなく、プログラム?
  • どういうこと?

と思われるかもしれません。

 

比較のために、まず人間が課題解決するときのプロセスを考えてみますね。

あなたが解決したい課題には、

現状や、現状を取り巻く周囲の状況があるかと思います。

あなたが課題を解決するなら、

  • 現状を理解し、
  • 何らかの判断をし、
  • 判断に基づいて行動する
  • 行動の結果に基づいて次の行動を修正する

といった過程を経るのではないでしょうか。

 

エージェントの場合、(あなたほど精緻ではなくても)

  • 認知する(現状の理解)
  • 判断する
  • 行動する
  • 行動による結果を評価して行動ルールを修正する

といったプロセスを経て、課題解決に最適な方法を提案してくれます。

 

つまり、強化学習では、

人間の課題解決と同じプロセスをプログラミングしているわけです。

強化学習プログラム内の行動ルール改善の仕組みのことをエージェントと呼んでいます。

 

強化学習と他の機械学習はどう違うの?

と思われるかもしれません。

強化学習が他の教師あり学習と比べて違うのは、

  • 学習する時に、正解がなくてもいい

ことです。

あなたが解決したい課題について、

  • こういう行動をすると、あなたに望ましい未来になる

のように、正解となる行動がわかる状況はほぼないのではないでしょうか。

なので、

  • 正解かはわからない状況で、いかにいい判断をするか

というのがポイントになります。

(正解(教師)がないという点が教師あり学習との決定的な違いになります。)

 

強化学習は、

  • 正解がわからない中で、
  • 報酬を頼りに、
  • より良い行動のためのルール

をより改良していくプロセスになります。

 

報酬という言葉には、短期的なものと長期的なものがあります。

また、時間軸に沿って、トータルとして得られる報酬の総和、という考え方もあります。

これらをいいバランスで最大化するように行動選択を最適化していくのに、さまざまなアルゴリズムが提案されています。

 

強化学習自体は古くから提唱されていたアイデアでしたが、

近年のディープラーニングとの組合せにより、優れた性能を示すことができることがわかり、脚光を浴びています。

囲碁のトッププロを敗った「アルファ碁」は、強化学習の探索空間を深層学習により近似して、計算可能な規模に落とし込むことに成功しました。

 

教師あり学習と比較して、強化学習は、膨大なデータを必要としない特徴があり、

データ収集だけでなく、試行錯誤の質と量も重要な要素となっています。

 

というわけで、これから強化学習のアルゴリズムを活用して、

これまでのパフォーマンスを大きく上回る例が多数出てくることが考えられます。

 

そこで本記事では、

  • 強化学習ってなに?
  • 強化学習を基礎からシッカリ理解したい
  • 強化学習のアルゴリズムはどうなっているの?

といった

  • 強化学習の初学者の方
  • 専門的な内容を理解したい方
  • 強化学習を実装して仕事に活かしたいあなた

のために、強化学習をサクッと学べる良書をご紹介します。

 

 

本記事の概要

「強化学習」を学びたいあなたにチェックしてほしい良書、7冊はこちらです

 

1冊目はこちら 【将棋や囲碁の人工知能を、サクッと分かりやすく学びたいあなたはこちら】

人工知能はどのようにして 「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質

本書は、人工知能将棋プログラムの第1人者による、人工知能の過去・現在・未来のわかりやすい1冊です。

むずかしい理論や数式は一切なく、複雑な話を語りかけるようにサクッと理解させてくれます。アルファ碁の中身のわかりやすい解説から、自身がどのようにポナンザを開発してきたのか、ポナンザの開発当初からどんな変化があり、なにを考え、これからをどうなるのか、といったことを、開発者独自のエピソードとともに解説してくれます。

深層学習や強化学習、モンテカルロ探索など、キーとなるアルゴリズムを中心として、数式などの詳細はうまく省きながら、どんな意味があったのかを、わかりやすく理解させてくれます。

人工知能がこれから進化していく中で必要なことはなんなのか?2045年にはどうなっているのか?シンギュラリティは?といったことについて、開発者独自の深い洞察が示されています。

人工知能ってなに?手法の詳細はいらない、これからの人工知能がどうなっていくのか知りたい、といった方がなど、人工知能の過去・現在・未来をサクッと理解できるにおすすめの1冊です。

詳しくはこちらの記事にもございます↓

将棋AIの第一人者が解説する人工知能「アルファ碁」と、深層学習・強化学習による人工知能の進化とは?

 

 

 

 

 

 

 

2冊目はこちら【強化学習・深層学習などの仕組みを、アルファ碁を通じて、わかりやすく学びたいあなたはこちら】

最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み

本書はNaureに掲載されたアルファ碁の論文の解説書となっています。

アルファ碁の手法の解説はもちろんですが、それだけにとどまらず、強化学習やディープラーニングなど、機械学習全般的な知識が理解しやすい順番で解説されています。

論文というとむずかしそうですが、初学者の方でもわかりやすいように工夫しながら解説されていて、囲碁は好きだけど、ディープラーニングなどはちょっとわからない、といった初学者の方でも、言葉の説明から、図やイラスト、Memoなどがあり、なるほどと理解できるように工夫されているので安心です。

機械学習の経験がある方などは、アルファ碁の方法論やアルゴリズムの詳細も図やフローチャートなどからわかりやすく学べます。また、関連知識のもれを埋めれるように書かれており、技術同士のつながりや組み合わせ方のポイントなども学べるのがうれしいところです。

アルファ碁の解説をつうじて、人工知能や機械学習の手法そのものについても、サクッとシッカリ学べるお得な1冊となっています。

詳しくはこちらの記事をどうぞ↓

「アルファ碁」をつうじて、深層学習・強化学習を学びたいあなたはチェックしてほしい良書はこちらです【アルファ碁解体新書】

こちらは増補版が出ています↓

 

 

 

 

 

 

3冊目はこちら【プログラミングしながら、強化学習や深層学習を学びたいあなたはこちら】

強化学習と深層学習 C言語によるシミュレーション

本書は、強化学習と深層学習だけでなく、それらを組み合わせた深層強化学習をを手を動かしながら学べ、実装できるようになる1冊です。

強化学習(Q学習)については、Q学習のアルゴリズムと実装例が、

深層学習の解説では、畳み込みニューラルネットによる学習のアルゴリズムの説明や実装が示されています。

最後に、深層強化学習について、Q学習をニューラルネットに適用する例が解説されています。

ニューラルネットによるQ学習のアルゴリズムや実装や、ゴールを見つける深層学習プログラムとして、

強化学習のところで作成した迷路の問題のプログラムについて、

Q値の処理に畳み込みニューラルネットワークを使用した深層強化学習の実装例が解説されています。

詳しくはこちらの記事にもございます↓

強化学習と深層学習の実装を学びたいあなたはこちらはいかがでしょうか【C言語】

こちらもございます↓

実装 強化学習: Cによるロボットプログラミング

 

 

 

 

 

 

 

 

4冊目はこちら【エクセルVBAやC言語で、強化学習や進化計算を、手を動かしながら学びたいあなたはこちら】

ロボットインテリジェンス―進化計算と強化学習 (図解ロボット技術入門シリーズ)

本書は、タイトルの通り、ロボット関係の研究者・技術者・学生さん向けに書かれた、強化学習や進化計算(遺伝的アルゴリズム)の解説本となっています。とはいっても、基礎の基礎からイラストや図を使ってわかりやすく解説されているので、強化学習や進化計算を学びたい初学者の方にも学びやすい1冊です。

強化学習については、最初に概要がわかりやすく説明され、その後、Q学習について試行と学習について説明があり、状態・行動空間の構成、状態の観測と行動の選択、行動の実行と状態遷移、学習則の計算についてくわしく解説があります。

その後、Q学習の実装が、EXCEL VBA を用いて、1つひとつ丁寧に解説されています。Q値の表現、最大値の選択、最大のQ値をもつ行動の選択、ε-greedy法による行動の選択などが、フローチャートとソースコードとともに解説され、理解を促進してくれます。他にも迷路問題の例題が詳しく扱われており、Q学習をシッカリ理解できるように工夫されています。

最後にQ学習における問題点について、経路に依存するタスク、一意に状態を特定できないタスク、状態数の指数的増加などについてのコメントがあり、Q学習を用いるかどうかの判断基準にすることができます。C言語による実装もあり、本格的にプログラミングしたい方にも参考になるのではないでしょうか。

強化学習の基礎の基礎からわかりやすく理解でき、実装も1つひとつ丁寧に学べる1冊です。

こちらもございます↓

 

 

 

 

 

 

5冊目はこちら【強化学習の専門内容を理解するための、シッカリした基礎を学びたいあなたはこちら】

強化学習

本書は、強化学習の定番といってもいい1冊で、強化学習とは?からキチンと詳細に説明がされており、最新研究を理解できるようになるための基礎を作れる1冊です。

第1部の第1章では、強化学習の基礎から、発展の歴史、その中で出てきたアイデアとそれらの性能比較、そして解決すべき課題などが、コンパクトでありながら濃い内容としてまとめられています。強化学習の構成要素である、方策、報酬関数、価値関数、環境のモデルの解説や、三目並べを例にした強化学習の基本的な考え方などをサクッと学べます。くわえて、強化学習の歴史がくわしくまとめられており、ある程度学んだことあるあなたなら、知識の整理にも役立つかと思います。また、初学者の方は1章を追うだけでも、強化学習の概念の大枠をつかめるかと思います。

第2章では、強化学習の出発点ともいえる、n本バンディット問題を例にして、評価フィードバックのやり方について、シンプルなものから複雑なものへと系統立てて解説されています。行動価値手法、ソフトマックス行動選択、漸進的手法、非定常問題への拡張、オプティミスティック初期値、強化比較、追跡手法、連想探索など、重要な考え方とそれぞれの特徴を理解することができます。

第3章では、強化学習の環境とエージェントの相互作用についての考え方が解説されています。報酬や収益の考え方、2つのタスク(エピソード的・連続)の扱い方、マルコフ性、マルコフ決定過程、価値観数、最適性、ベルマン最適方程式、近似などがシッカリ解説されています。

第4章から、強化学習問題を解くための手法についての解説があります。第4章では動的計画法、第5章ではモンテカルロ法、第6章ではTD学習が解説されています。その後統一された見方として、適格度トレース、一般化、関数近似、プランニング、学習、強化学習の特徴軸などの解説があります。

ケーススタディでは、TD-Gammonや、Samuelのチェッカープレイヤー,Acrobot、エレベータディスパッチ問題、動的チャネル割り当て、ジョブショップ・スケジューリングなどの解説があります。

強化学習の専門内容を理解するための基礎をつくりたいあなたにおすすめの1冊となっています。

ちなみに原著はこちらです↓

原著の改訂版もございます↓

 

 

 

 

6冊目はこちら【強化学習の数理的な内容をシッカリ理解したいあなたにはこちら】

強化学習 (機械学習プロフェッショナルシリーズ)

本書は、強化学習の数理的な部分を、天下り的ではなく、しっかりと学びたいあなたにオススメの1冊です。

多くの強化学習の書籍では、強化学習の数理的な理解に重要なマルコフ決定過程や動的計画法などの解説までは、紙面の都合上など、手が回りにくいという点がありました。

そのため強化学習の数理的な面については、忙しい中他書で調べるのも難しかったり、天下り的な使用にとどまっている方も多いのではないでしょうか。

本書は、機械学習の中でも、強化学習に特有の話題を重点的に解説しながら、

強化学習の数理的な面も一気に学べるように工夫された1冊です。

単にライブラリやパッケージの使い方を学ぶというよりも、

  • 手元の強化学習アルゴリズムを改善したい
  • 新しい強化学習アルゴリズムを開発していきたい

といったあなたに特におすすめの本となっています、

 

 

 

 

7冊目はこちら【強化学習の最新研究について、基礎とともに理解を深めたいあなたはこちら】

これからの強化学習

本書は、現在の強化学習の全体像をつかめ、最新研究を理解でき、研究や業務に活かせるようになるための1冊です。

強化学習の基本的な考え方について、多腕バンディット問題、greedyアルゴリズム、ε-greedyアルゴリズム、UCB(Upper Confidence Bound)アルゴリズムなどや、エージェントと環境の相互作用を記述するための数理モデルであるマルコフ決定過程やその時間発展が、三目並べを例に解説されています。

価値反復に基づくアルゴリズムでは、ベルマン方程式の導出や、それを思考錯誤によって解くアルゴリズム Sarsa について、TD誤差などをまじえて解説され、状態遷移確率が未知の場合の問題でも役立つ Q-learning が説明され、Sarsa と Q-learning の比較がされています。

加えて、方策勾配に基づくアルゴリズムでは、確率的方策を確率モデルを用いてパラメータを最適化する問題として捉えることが説明されています。ゴルフ問題を例にして、行動価値関数を離散化する難しさや計算量の問題、方策を明示的に求める手続きの簡便さなども解説されています。方策勾配に基づくアルゴリズムの説明や、REIINFORCE アルゴリズム、方策勾配法、自然方策勾配法などの具体的なアルゴリズムが紹介されています。

強化学習を研究や業務に活かしたいあなたがシッカリ理解でき、さらに詳しく学ぶにはどのような文献がよいか、といった情報もシッカリとまとめられています。非常に濃い、キチンと学びたいあなたにおすすめの1冊です。

こちらもございます

機械学習スタートアップシリーズ Pythonで学ぶ強化学習 入門から実践まで (KS情報科学専門書)

強化学習アルゴリズム入門: 「平均」からはじめる基礎と応用

 

 

 

 

 

 

 

 

8冊目はこちら【強化学習の最新アルゴリズムを、効率的に学びたいあなたはこちら】

速習 強化学習 ―基礎理論とアルゴリズム―

本書は、強化学習の新しいアルゴリズムを、サクッと学べる1冊となっています。

確率的なシステムに関する大規模な問題を近似的に解くという観点から強化学習が解説されています。マルコフ決定過程の枠組みで記述し、動的計画法で解けない大規模な問題を解くための強化学習という流れです。大規模な問題を扱うためのアイデアとしてサンプルや関数近似を活用し、それらと動的計画法との関連を知ることが重要だと述べられています。

注意する点としては、解説を簡潔にするために、累積割引報酬和の期待値による指標とする結果のみを議論していたり、マルコフ決定過程や動的計画法の中身については、サクッと簡単に述べられています。本書付録には理論などの解説がありますが、詳しく学びたい方は他書で補うのがよいかと思います。

そのかわりに簡潔に書くメリットとして、20近くのアルゴリズムの疑似コードを中心として、より多くの手法の選択肢が提供されています。強化学習の手法のトレードオフをサクッと理解できるようにまとめられています。

詳しくはこちらにもございます↓

強化学習の最新アルゴリズムをサクッと学びたいあなたはこちらをどうぞ【速習 強化学習】

 

 

 

 

 

 

というわけで、今回は、強化学習を基礎から学べるものから、実装や専門的な内容を理解できるようになる本まで、7冊をご紹介しました。

 

 

 

 

 

 

こちらもございます↓

 

↓こちら無料で読めます

Kindle Unlimitedの登録することで、

  • 無料で読むことが可能

です。

お試し登録(解約できて無料)をしてみてはいかがでしょうか(初回30日間無料で体験できます)↓

アマゾン Kindle Unlimited はこちら

 

 

 

 

 

こちらもございます↓