!!! サイト改修中のため表示が乱れる場合があります(1月末頃まで) !!!
強化学習

3-4. DQNでスーパーマリオ1-1をクリアする(動作確認編)

やること

DQNでマリオをクリアします。9-3ではGAでマリオをクリアしましたが、あれはいわば「目を閉じて走り、ジャンプのタイミングを最適化」しているに過ぎません。ここではきちんと画面を見て、進み方を学習してもらいましょう。マリオの動かし方については9-3を、DQNのアルゴリズムについては3-1をご参照ください。

実行環境とコード

Google Colaboratoryが利用可能です。

Google Colab
AIワークショップ|GA vs 強化学習(DQN) 配管工おじさん、走る (2019/04/24 19:00〜)
## ★オンライン配信を行います★ ~~自宅で参加できるかも!? テスト配信ですので、うまく映らなくても泣かないでください。~~ テスト配信してみました、たぶん大丈夫だと思います! こちらで視聴可能で...

マリオのエミュレータ

Kautenjaさんが作った環境は、Colab上で問題なく動作しましたが、報酬体系が少し惜しい感じでした。具体的には、「右に進んだら+x点」「左に進んだら-x点」「死んだら-x点」という3種類の報酬しか用意されていません。マリオがクリボーや崖を恐れてしまい学習に失敗する可能性があります。これは、クリボーを踏み越えるご褒美よりも、クリボーで死ぬペナルティのほうが大きいためです。

ppaquetteさんが作った環境は、ソースコードを一部書き換えることでColab上でなんとか動きました(それもまあまあ大変でしたが…)。一方で報酬体系はとても良いようで、Kautenjaさんの基本報酬に加え、「クリボーを踏んだら+x点」「崖を飛び越えたら+x点」といったきめ細やかなご褒美が用意されています。しかし残念ながら、keras-rlとの相性が悪いようで、DQNの学習ができませんでした。

よって、今回は前者の環境を採用することにします。

ニューラルネット

DQNの結果

13800エピソード時点のマリオです。

18800エピソード時点のマリオはさっきよりも早く死んでしまいます。

GAで走ったマリオに比べると、やたらにジャンプしないので賢く見えます。

今回は20000エピソードまで学習しましたが、ゴールはできませんでした。原因は、1エピソードが長かったことです。ランダムにステージを生成し、2画面分くらいの長さ単位で学習を行えば、きっとうまくいくと思います。

リアクションのお願い

「参考になった!」「刺激された!」と思ったらぜひリアクションをしましょう。エンジニアの世界はGive and Takeによって成り立っています。これからも無料で良質な情報にアクセスできるよう、Giveする人への感謝をリアクションで示しましょう!

この記事をシェアする

自身のブログ等で使用する場合は引用を忘れずに!

また、寄付も受け付けています。コーヒー1杯でとても喜びます(*˘︶˘*)

 Amazonでギフト券(アマギフ)を贈る

こちらのリンク から金額を指定してお贈りください。(デフォルトで10000円になっているのでご変更ください)

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 Amazonで食事券(すかいらーく優待券)を贈る

500円 1000円 2000円 5000円 からお贈りください。

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 その他、ギフト券やクーポン券をメールで贈る

デジタルのギフト券/クーポン券はメールアドレス(staffあっとvigne-cla.com)までお送りください。受領の返信をいたします。
紙のギフト券/クーポン券は 「郵便物はこちらへ」の住所 まで送付してください。名刺やメールアドレスを同封していただければ受領の連絡をいたします。
余った株主優待券等の処理におすすめです。
いずれも見返りはありませんのでご了承ください。

不明点はSNSでお気軽にご連絡ください

ビネクラのTwitter・Youtubeでコメントをください!


Slack・Discordの場合はこちらの公開グループに参加してShoya YasudaまでDMをください!


※当ブログに関することは何でもご相談・ご依頼可能です。

この記事を書いた人
Yasuda

博士(理学)。専門は免疫細胞、数理モデル、シミュレーション。米国、中国で研究に携わった。遺伝的アルゴリズム信者。物価上昇のため半額弁当とともに絶滅寸前。

タイトルとURLをコピーしました