AlphaGoは大量のプロの棋譜データを集めて教師あり学習をさせていましたが、その後発表されたAlphaGoZeroは、プロの棋譜データなしで、まるで赤ちゃんのような状態から学習を始めてAlphaGoに勝つようになりました。さらに、AlphaGoZeroをより汎用的に改良したAlphaZero は大変シンプルな構造となっていて、強化学習初心者でも学びやすくなっています。
AlphaZeroは、Googleの巨大なネットワークの中で学習されたゲームAIですので、1台のマシンでは学習できませんが、論文に基づくコードを動かしながら、人の知識なしでゼロから学習を始めるAlphaZeroの構造を、強化学習の観点から、豊富な図とPythonプログラミングで楽しく学んでいきましょう。
前半には、チェス・マシン「Deep Blue」についての解説もあります。
92
108
TAKE THIS COURSE