Sorry, you have Javascript Disabled! To see this page as it is meant to appear, please enable your Javascript!

１冊の本に出会うことで、人生が大きく変わることがあります。良い品物に出会ったことで幸せになれることもあります。とはいっても、多様な商品があふれる中で、より価値の高いものを選び出すのは大変です。そこでこのブログでは、忙しいあなたの代わりに、史上最強の「良い本・良いくらし」の提案をさせていただきます。

忙しいあなたの代わりに、史上最強の良い本・良い暮らしのご提案

「アルファ碁」の手法について、強化学習など基礎からシッカリわかりやすく学びたいあなたにチェックしてほしいおすすめ本はこちらです【アルファ碁解体新書】

おすすめ

2018.02.262021.03.22

アルファ碁（囲碁AI）が人間のチャンピオンに勝ったのは、2016年のことでした。

将棋のAIが、プロ棋士たちに勝利する中で、

将棋はAIが勝ったけど、囲碁AIが勝つのはまだ先だろう、

といった空気の中での出来事だったように思います。

それは常識的な考えでした。

囲碁の探索空間はおよそ１０³⁶⁰であり、将棋の探索空間１０²²⁰とは、

くらべものにならないほど巨大であるためです。

そんな中、アルファ碁は人間に勝ちました。

そしてその手法は、以下の論文で報告されました。

『Mastering the game of Go with deep neural networks and tree search』

権威ある科学雑誌であるNatureに掲載されたこの論文は、

アルファ碁がどんな手法をつかったのかを詳細に報告しています。

この論文は、人工知能、機械学習、ディープラーニング（深層学習）、強化学習、深層強化学習などの潜在的な力を示し、

多くの方に驚きをもって、迎えられたのではないでしょうか。

アルファ碁はどんな手法が使われているの？

アルファ碁の仕組みはどうなっているの？

アルファ碁で使われる、深層学習（ディープラーニング）、強化学習、それらを合わせた、深層強化学習とはどんなものなの？

といった疑問を持たれた方も多いのではないでしょうか。

そこで本記事では、アルファ碁の手法や仕組みをわかりやすく学びたいあなたにおすすめの良書をご紹介します。

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

翔泳社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

本書は、増補改訂版が出ています↓

最強囲碁AI アルファ碁解体新書増補改訂版アルファ碁ゼロ対応深層学習、モンテカルロ木探索、強化学習から見たその仕組み

最強囲碁AI アルファ碁解体新書増補改訂版アルファ碁ゼロ対応深層学習、モンテカルロ木探索、強化学習から見たその仕組み

翔泳社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

もしも、手法の詳細というより、アルファ碁の結果をふまえて、

人工知能の未来はどうなりそう？
知能とは？知性とは？
人間とAIの違いはどんなところ？

といった内容をサクッと理解できる感じをご希望でしたら、

将棋AI開発の第一人者の1人でもある山本一成さんの1冊もおすすめです↓

人工知能はどのようにして「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質

人工知能はどのようにして「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質

ダイヤモンド社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

本記事の概要

アルファ碁をつうじて、深層学習・強化学習を学びたいあなたはこちらの良書はいかがでしょうか

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

翔泳社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

本書は、アルファ碁の各手法や全体の仕組みを、深層学習や強化学習の初学者の方でも、ゼロからシッカリ理解できるように解説された良書です。

本書では上で紹介した論文

⇒『Mastering the game of Go with deep neural networks and tree search』

の内容を、基礎からていねいに説明してくれています。

全体が１つのストーリーのように、わかりやすい順番で流れるように解説があり、読み始めると時間を忘れて没頭してしまいました。

アルファ碁が生まれた背景や、囲碁AI分野の全体像がサクッと理解できます（第1章）

第1章では、アルファ碁についての簡単な紹介からはじまり、

これまでの歴史や、囲碁AIの発展にどのようなアルゴリズムが寄与してきたかなどがサクッとまとめられています。

次の一手をどう決めるのか？

という点と機械学習の使い方が、機械学習の基本から分かりやすくまとめられています。

一般的な機械学習の流れ

生データ　⇒　前処理　⇒　特徴抽出　⇒　モデル化　⇒　学習

と、囲碁のアルゴリズムの対応関係がわかりやすい図でまとめられ、囲碁AI全般のしくみと、機械学習の関係をサクッと理解することができます。

加えて、ゲームAIの歴史、アルファ碁開発者のデミス・ハサビス氏の紹介、アルファ碁や関連囲碁AIの人類との戦績などもサクッと概観できます。

1章を読めば、アルファ碁や囲碁AI分野の全体像がサクッと理解できます。

ディープラーニングと、そのアルファ碁での使われた方をサクッと理解することができます（第2章）

第2章では、ディープラーニングとは？について、基礎となるニューラルネットワークの話からはじまり、手書き数字認識の例から畳み込みニューラルネット（CNN）の各要素技術の解説と最近の発展についてまとめられています。

次にそれを基礎にして、アルファ碁で次の一手を決めるのに使われる畳み込みニューラルネットワークの解説があります。すでにCNNを学んだ方なら、画像認識と、アルファ碁のCNNが同じ構造をもっていることがサクッと理解できます。

ちなみに、アルファ碁でのこのCNNは、SL ポリシーネットワーク（SL: Supervised Learning: 教師あり）と呼ばれていて、ある盤面において、次の石が打たれる確率を出力するのに使われています。

また、SL ポリシーネットワークの膨大な計算量への対処として、GPU や GPU を活かすCUDAの発展があったことも書かれており、勝率を予測するCNNであるバリューネットワークの説明もされています。

2章を読むことで、ディープラーニングそのものについての内容と、アルファ碁での使われ方をサクッと理解することができます。

強化学習とは？から、Q学習、方策勾配法、SL・RL ポリシーネットワークなどの手法をシッカリ理解することができます（第3章）

第3章では、強化学習の手法について、わかりやすく解説されています。

直観にすぐれたAIがディープラーニングとするなら、強化学習は経験に学ぶAIと説明があります。

強化学習は、機械学習とは違う考え方に基づいています。まずは初学者にもわかりやすいように、エージェントや報酬、価値、方策など基本的な概念が解説されています。

強化学習は（教師あり）機械学習と違い、正解がない状態で、なんらかの選択をし、選んだ答えのよさを報酬をもとに判定します。そして報酬をもとに、行動原理（方策）を改善していく方法と説明されています。

つぎに強化学習の歴史がまとめられています。強化学習がリチャード・E・ベルマン博士による動的計画法に起源をもち、価値関数を更新するQ学習、方策関数を更新する方策勾配法などがサクッと紹介されています。

強化学習のこれまでの事例として、

多腕バンディット問題（UCB1アルゴリズム、リグレットなど）
迷路についての強化学習（Q学習、TD誤差、行動価値関数、ε-グリーディ法、方策勾配法、方策関数など）
テレビゲームの操作の強化学習（DQN（Deep Q learning）、ATARI2600ゲームなど）

などが、アルゴリズムや具体例とともに紹介されています。

それを踏まえて、アルファ碁の強化学習についての解説があります。

SL ポリシーネットワークを強化学習することでより勝ちやすいポリシーネットワーク（RL ポリシーネットワーク）をつくる、といった目的や、学習の方法、計算量や必要日数などがサクッとまとめられています。（ちなみに、RL ポリシーネットワークのRLは、Reinforcement learning 強化学習の略です）

また、本書の山場の１つでもあり、

これまでの強化学習とアルファ碁の比較
方策勾配法による強化学習の各ステップ
実際のアルゴリズムのフローチャート
自己対戦による学習データの獲得の工夫

など、アルファ碁の手法の詳細が、図などを使って、わかりやすく詳細にまとめられています。

第3章を読むことで、アルファ碁の深層強化学習のアルゴリズムだけでなく、強化学習とは？から、Q学習、方策勾配法、SL・RL ポリシーネットワークなどの各手法について、シッカリ理解することができます。

AIが先読みするために必要な「探索」の解説がされています（第4章）

囲碁で先を読む方法についての解説があります。

2人ゼロ和有限確定完全情報ゲーム
SPポリシーネットワークの活用によるゲームにおける探索
しらみつぶし探索の考え方とゲーム木（ミニマックス木、アルファベータ法、枝刈り、深さ延長、評価関数など）
モンテカルロ木探索
プレイアウト
原始モンテカルロ

といった内容が、発展の時系列にしたがって、図を用いながら、わかりやすく解説されています。

コンピュータ囲碁 ―モンテカルロ法の理論と実践―

コンピュータ囲碁 ―モンテカルロ法の理論と実践―

共立出版

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

アルファ碁の全体の設計図と、全体を制御するAI（APV-MCTS）について学べます（第5章）

第5章では、１～４章で紹介された各要素をうまく制御するためのしくみ（アルファ碁全体の設計図）についてまとめられています。

全体を制御するAI（非同期方策価値更新モンテカルロ木探索（APV-MCTS））のアルゴリズムが解説されています。

バイアス計算でのSLポリシーネットワークの利用
バリューネットワークとプレイアウトの勝率の併用
多数のCPU, GPU による高速化

などのポイントとなる工夫についてもシッカリまとめられています。

5章を読むことで、アルファ碁の全体の設計図と、全体を制御するAI（APV-MCTS）について学べます。各技術がどう使われ、どのように性能を発揮しているのかを理解することができます。

付録として、畳み込みニューラルネットワークや強化学習の学習則の数式の導出や、以下に示す著者のホームページからダウンロードできる、囲碁プログラム「DeltaGo」のインストール方法などがつけられています。

また、実装の際に問題となりやすい、データ構造の設計、例外処理、計算量やメモリの制約などについての情報は、著者のDeltaGoのホームページで公開予定とのことです。

DeltaGoホームページ（著者ページ）は　⇒　こちら

囲碁は好きだけど、ディープラーニングなどはちょっとわからない、といった初学者の方でも、言葉の説明から、図やイラスト、Memoなどがあり、なるほどと理解できるように工夫されているので安心です。

ある程度機械学習を学ばれた方は、アルファ碁の全体像をサクッとつかめるだけでなく、方法論やアルゴリズムの詳細も理解できます。また、技術同士のつながりや組み合わせ方なども学べるのがうれしいところです。

くわえて、重要なキーワードについての解説がそのつど３行程度でサクッとまとめられていて、基礎知識の漏れを埋めるのに役立ちます。

アルファ碁の解説を通じて、機械学習や強化学習の各手法がアルファ碁でどう使われているかの理解だけでなく、それら手法そのものの理解を、シッカリ両立させた、お得な1冊となっています。

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

翔泳社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

本書は、増補改訂版が出ています↓

最強囲碁AI アルファ碁解体新書増補改訂版アルファ碁ゼロ対応深層学習、モンテカルロ木探索、強化学習から見たその仕組み

最強囲碁AI アルファ碁解体新書増補改訂版アルファ碁ゼロ対応深層学習、モンテカルロ木探索、強化学習から見たその仕組み

翔泳社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

こちらもございます↓

人工知能はどのようにして「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質

人工知能はどのようにして「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質

ダイヤモンド社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

アルファ碁はなぜ人間に勝てたのか (ベスト新書)

アルファ碁はなぜ人間に勝てたのか (ベスト新書)

ベストセラーズ

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

棋士とAI――アルファ碁から始まった未来 (岩波新書)

棋士とAI――アルファ碁から始まった未来 (岩波新書)

岩波書店

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

進化を続けるアルファ碁最強囲碁AIの全貌 (囲碁人ブックス)

進化を続けるアルファ碁最強囲碁AIの全貌 (囲碁人ブックス)

マイナビ出版

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門

AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門

ボーンデジタル

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

将棋AIで学ぶディープラーニング

将棋AIで学ぶディープラーニング

マイナビ出版

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

たのしくできる深層学習&深層強化学習による電子工作 ―chainer編

たのしくできる深層学習&深層強化学習による電子工作 ―chainer編

東京電機大学出版局

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~

つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~

マイナビ出版

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

強化学習 (機械学習プロフェッショナルシリーズ)

強化学習 (機械学習プロフェッショナルシリーズ)

講談社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

倒立振子の作り方ゼロから学ぶ強化学習―物理シミュレーション×機械学習

倒立振子の作り方ゼロから学ぶ強化学習―物理シミュレーション×機械学習

カットシステム

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

強化学習と深層学習 C言語によるシミュレーション

強化学習と深層学習 C言語によるシミュレーション

オーム社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

ITエンジニアのための強化学習理論入門

ITエンジニアのための強化学習理論入門

技術評論社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

強化学習アルゴリズム入門「平均」からはじめる基礎と応用

強化学習アルゴリズム入門「平均」からはじめる基礎と応用

オーム社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

機械学習スタートアップシリーズ　Ｐｙｔｈｏｎで学ぶ強化学習　［改訂第２版］　入門から実践まで (ＫＳ情報科学専門書)

機械学習スタートアップシリーズ　Ｐｙｔｈｏｎで学ぶ強化学習　［改訂第２版］　入門から実践まで (ＫＳ情報科学専門書)

講談社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Pythonによる深層強化学習入門 ChainerとOpenAI Gymではじめる強化学習

Pythonによる深層強化学習入門 ChainerとOpenAI Gymではじめる強化学習

オーム社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門

AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門

ボーンデジタル

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

TensorFlowによる深層強化学習入門: OpenAI Gym+PyBullet によるシミュレーション

TensorFlowによる深層強化学習入門: OpenAI Gym+PyBullet によるシミュレーション

オーム社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

現場で使える！Python深層強化学習入門強化学習と深層学習による探索と制御 (AI & TECHNOLOGY)

現場で使える！Python深層強化学習入門強化学習と深層学習による探索と制御 (AI & TECHNOLOGY)

翔泳社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

こちらもございます↓

『強化学習の最新アルゴリズムをサクッと学びたいあなたはこちらをどうぞ【速習強化学習】』

『「強化学習」と「深層学習」を組み合わせた「深層強化学習」の実装を学びたいあなたはこちらはいかがでしょうか【C言語】』

『将棋AIの第一人者が解説する人工知能「アルファ碁」と、深層学習・強化学習による人工知能の進化とは？』

『「機械学習」に入門したいあなたにチェックしてほしい良書、１０冊はこちらです』

『「高校数学」をサクッと身につけたい・復習したい・やり直したいあなたにおすすめの本はこちらです』