やること
9-19ではGoogle ColaboratoryでOpenAI Gymの「CarRacing-v0」を実行し、最後に遺伝的アルゴリズムでプレイした例をお見せしました。
最適化アルゴリズムはこちらの記事のものを改変して使っています。
ここではいくつかのステージで、遺伝的アルゴリズム(GA)を使って最適化を行ってみます。
結果だけどうぞ
コース1
先の記事でもこのコースを走りました。
コース2
やったぜ。
コース3
直線が続くと調子に乗るみたいです。
コース4
えぇ・・・
コース5
安全第一。素晴らしいです。
コース6
out-in-out・・・ではないですね。
感想
デフォルトのコードでは、env.step() の返り値に含まれる有益な情報は報酬しかありませんでした。これは改造後も変わっていません。報酬だけでは最適化にも限界があるので、さらに改造して道路情報なども得られるようにしたいです。