ＡＩでブロック崩しを学習させよう。Advantage Actor-Critic（A2C）で学ぶ強化学習の応用編

A3C(Asynchronous Advantage Actor-Critic)の発展型モデル A2C を使って強化学習を体験してみよう。

Ratings 3.92 / 5.00

ＡＩでブロック崩しを学習させよう。Advantage Actor-Critic（A2C）で学ぶ強化学習の応用編

What You Will Learn!

Actor-Critic によるデュアルネットワークの仕組み（AlphaZeroネットワーク）
同期分散処理アルゴリズム
A2Cによるブロック崩しの学習のさせ方
強化学習の応用
方策勾配法等

Description

強化学習アルゴリズム Advantage Actor-Critic（A2C）を使って、ブロック崩しゲームを経験ゼロの状態から自動で学習させていく方法を紹介します。Advantage Actor-Critic のネットワークモデルは、AlphaGo Zero でも使われているもので方策と価値と同時に学習できます。更に「同期処理」という方法からGPUを効率的に利用でき、数日かかっていた学習うが数時間でできるようになっています。ネットワークモデルの部分は、続編のAlphaGo Zeroのコースの基礎となりますので受講しておくようにしましょう。

また漫画Spot's storyで、A2Cの学習の流れを分かりやすく解説しています。わからなくなったときは数式やプログラムと一緒に見比べてみましょう。

モデルの学習時間：30分～数時間

保存データの読み込みから再生まで1分程度と、時間がかかりません。

Google Colab 上で実行しますので、様々なツールの用意は不要です。またお使いのパソコンの環境に依存しません。

PythonコードとPyTorchフレームワークの教材で実行できます。データサイエンス・ＡＩ学習中の方にもお薦めです。