強化学習アルゴリズム Advantage Actor-Critic(A2C)を使って、ブロック崩しゲームを経験ゼロの状態から自動で学習させていく方法を紹介します。Advantage Actor-Critic のネットワークモデルは、AlphaGo Zero でも使われているもので方策と価値と同時に学習できます。更に「同期処理」という方法からGPUを効率的に利用でき、数日かかっていた学習うが数時間でできるようになっています。ネットワークモデルの部分は、続編のAlphaGo Zeroのコースの基礎となりますので受講しておくようにしましょう。
また漫画Spot's storyで、A2Cの学習の流れを分かりやすく解説しています。わからなくなったときは数式やプログラムと一緒に見比べてみましょう。
モデルの学習時間:30分~数時間
保存データの読み込みから再生まで1分程度と、時間がかかりません。
Google Colab 上で実行しますので、様々なツールの用意は不要です。またお使いのパソコンの環境に依存しません。
PythonコードとPyTorchフレームワークの教材で実行できます。データサイエンス・AI学習中の方にもお薦めです。
311
61
TAKE THIS COURSE