やること
前回はDQNで地雷原を進むゲームを解きました。今回は、もっと賢く行動するためにニューラルネットを工夫してみます。
使うもの
Google Colaboratoryが利用可能です。

Google Colab

AIワークショップ|初心者だけど強化学習(DQN)できちゃった (2018/09/28 19:00〜)
# 情報交換はAI FASHIONのSlack(参加ボタン)の方でお願いします。 ## 概要 ノートPCを持参して、強化学習で「迷路を解く」AIを作ってみよう。 「プログラム環境の準備」からやりますの...
ニューラルネットを工夫する
前回
畳み込み層のカーネルが5*5でした。つまりエージェントは2マス先までしか見えていませんでした。

今回
畳み込み層のカーネルを9*9に拡大し、チャンネルを倍に増やします。つまり、4マス先(盤面全体)まで見え、多くの状況に対応できることが期待できます。

学習の結果
スコアを縦軸に取った学習曲線を見ると、今回もいい感じで学習が進んでいることが分かります。

地雷原、再び
10000エピソードまで学習した重みとバイアスを用いて、前回ゴールできなかった盤面にトライしてみました。強引ですがゴールできました。ちなみに、2歩目から下に進むルートも同スコア(地雷計-4点)ですので、地雷の数が少ない道を選んだのかもしれません。

Q&Aコーナー
Q. エージェントには地雷が見えているんですか?
A. 初めは「地雷が見えない」「地雷があるからといってどう動くか分からない」ような状態ですが、学習エピソードが進むにつれて、「地雷が見える(主に前半の畳み込み層)」「地雷を避ける(主に後半の全結合層)」ことができるようになる感じです。
Q. Google Coraboratoryがバグる
A. プログラムの出力行が多すぎてブラウザが落ちています。実行自体はGoogleのサーバーの方で続いているので、ページをリロード(F5)してみてください。