4/14(日)　足・靴・木型研究会「第2回研究集会」を開催します☆彡

14-4. ジーンズ写真の「台形補正」と「丈の取得」

14-10. 画像差分で鮭の遡上を監視してみた

14-5. ペットの写真から身体測定

26-5. 「疑似因果」の提唱（疑似相関という言葉を使うな）

28-2. Googleフォームの自動返信メール（任意の送信元アドレス、任意のメール内容）

16-13. 「フッ素樹脂加工が剥がれる！」で考えるデマと科学リテラシー

5-19. 最速降下曲線（サイクロイド）の坂よりも速い坂

7-23. Googleフォームにあらかじめ回答内容を記入しておく

26-16. 月給から時給を計算するページ（保存版）

16-4. テレビの印象操作を集めてみた（その１）

16-27. Pythonのsubprocess.Popen()による並列実行でリアルタイム標準出力がしたかった備忘録

25-1. 画像のフーリエ変換で遊んでみた（Pythonコードあり）

7-32. Raspberry Piの無線LAN設定ファイル（wpa_supplicant.conf）をWeb上で生成する

5-18. ランチパックは分割するほどコストを削減できる

14-6. 車椅子利用者の写真から「着丈」「パンツ丈」の取得

26-9. 人間を最も殺している生物は蚊なのか？

28-5.【WebAR】AR.jsでオブジェクトが小刻みに揺れる現象

16-7. ポケモンで分かる二項検定とZ検定の違い

3-3. DQNで難しい迷路を解く

強化学習 / DQN

2019/03/06

目次

やること
使うもの
ニューラルネットを工夫する
学習の結果
地雷原、再び
Q&Aコーナー

やること

前回はDQNで地雷原を進むゲームを解きました。今回は、もっと賢く行動するためにニューラルネットを工夫してみます。

使うもの

Google Colaboratoryが利用可能です。

Google Colaboratory

AIワークショップ｜初心者だけど強化学習（DQN）できちゃった (2018/09/28 19:00〜)

# 情報交換はAI FASHIONのSlack（参加ボタン）の方でお願いします。 ## 概要ノートPCを持参して、強化学習で「迷路を解く」AIを作ってみよう。「プログラム環境の準備」からやりますので、初心者におすすめです。 ## コンセプト AIって教師データ集めが大変って聞いたけど、強化学習っていうのは...

ニューラルネットを工夫する

前回

畳み込み層のカーネルが5*5でした。つまりエージェントは２マス先までしか見えていませんでした。

今回

畳み込み層のカーネルを9*9に拡大し、チャンネルを倍に増やします。つまり、４マス先（盤面全体）まで見え、多くの状況に対応できることが期待できます。

学習の結果

スコアを縦軸に取った学習曲線を見ると、今回もいい感じで学習が進んでいることが分かります。

地雷原、再び

10000エピソードまで学習した重みとバイアスを用いて、前回ゴールできなかった盤面にトライしてみました。強引ですがゴールできました。ちなみに、２歩目から下に進むルートも同スコア（地雷計-4点）ですので、地雷の数が少ない道を選んだのかもしれません。

Q&Aコーナー

Q. エージェントには地雷が見えているんですか？

A. 初めは「地雷が見えない」「地雷があるからといってどう動くか分からない」ような状態ですが、学習エピソードが進むにつれて、「地雷が見える（主に前半の畳み込み層）」「地雷を避ける（主に後半の全結合層）」ことができるようになる感じです。

Q. Google Coraboratoryがバグる

A. プログラムの出力行が多すぎてブラウザが落ちています。実行自体はGoogleのサーバーの方で続いているので、ページをリロード（F5）してみてください。

タイトルとURLをコピーしました