3-3. DQNで難しい迷路を解く

やること

前回はDQNで地雷原を進むゲームを解きました。今回は、もっと賢く行動するためにニューラルネットを工夫してみます。

Google Colaboratoryが利用可能です。

畳み込み層のカーネルが5*5でした。つまりエージェントは２マス先までしか見えていませんでした。

畳み込み層のカーネルを9*9に拡大し、チャンネルを倍に増やします。つまり、４マス先（盤面全体）まで見え、多くの状況に対応できることが期待できます。

スコアを縦軸に取った学習曲線を見ると、今回もいい感じで学習が進んでいることが分かります。

10000エピソードまで学習した重みとバイアスを用いて、前回ゴールできなかった盤面にトライしてみました。強引ですがゴールできました。ちなみに、２歩目から下に進むルートも同スコア（地雷計-4点）ですので、地雷の数が少ない道を選んだのかもしれません。

Q. エージェントには地雷が見えているんですか？

A. 初めは「地雷が見えない」「地雷があるからといってどう動くか分からない」ような状態ですが、学習エピソードが進むにつれて、「地雷が見える（主に前半の畳み込み層）」「地雷を避ける（主に後半の全結合層）」ことができるようになる感じです。

Q. Google Coraboratoryがバグる

A. プログラムの出力行が多すぎてブラウザが落ちています。実行自体はGoogleのサーバーの方で続いているので、ページをリロード（F5）してみてください。