9-3. 遺伝的アルゴリズム（vcopt）でスーパーマリオ1-1をクリアする

本記事の内容は2019年5月13日に更新されました。

やること
実行環境
pip install
import
マリオの動かし方
動画の表示方法
何を最適化するのか
（必須）評価関数
（任意）poolの可視化関数
GAで最適化
追記

やること

動画サイトを探すと「GAでマリオをクリアする」といった動画が見つかります。正直なところ、強化学習でやったほうが良いとは思いますが、どうしてもGAでクリアしたいなら…ということでvcoptを使ってみましょう。

実行環境

Google Colaboratoryが利用可能です。

Google Colab

vcoptの使い方についてはチュートリアルをご参照ください。

vcoptの仕様については最新の仕様書をご参照ください。本記事執筆時とは仕様が異なる場合があります。

pip install

Google Colaboratoryはセッションが切れる度にpip installし直す必要があります。

!pip install gym-super-mario-bros
!pip install vcopt

親玉のgymは最初から入っています。

import

まずは、今回使うパッケージをインポートします。

#マリオ関連のimport
from nes_py.wrappers import BinarySpaceToDiscreteSpaceEnv
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT
env = gym_super_mario_bros.make('SuperMarioBros-1-1-v0')
env = BinarySpaceToDiscreteSpaceEnv(env, SIMPLE_MOVEMENT)

#プロット関連のimport
import matplotlib.pyplot as plt
from matplotlib import animation, rc

#vcopt関連のimport
import numpy as np
import numpy.random as nr
from vcopt import vcopt

マリオの動かし方

こちらのパッケージを使用させていただきます。

gym-super-mario-bros

Super Mario Bros. for OpenAI Gym

こんな感じで、動作確認できました。

#ゲーム環境のリセット
env.reset()

#画像の準備
fig = plt.figure()
ims = []

#繰り返し操作して画面を表示
for i in range(100):
    #0:
    #1:→
    #2:→＋ジャンプ
    #3:→→
    #4:→→＋ジャンプ
    #5:ジャンプ
    #6:←
    command = nr.randint(1, 7)
    state, reward, done, info = env.step(command)

    plt.imshow(env.render(mode='rgb_array'))
    plt.show()
    
    if done == True:
        break

いろいろ調べてみると、次の仕様が分かりました。

１秒あたり20フレーム（20ステップ）の入力を受け付ける
マリオのx座標は取得でき、1-1のゴールのx座標は3161
その他、コイン数や残り時間等も取得できる

入力は７種類のようです。

０：（無入力）
１：→
２：→＋ジャンプ
３：→→
４：→→＋ジャンプ
５：ジャンプ
６：←

動画の表示方法

マリオの画面を1コマ1コマ表示できましたが、見づらいので動画として表示したいです。Google Colaboratoryで動画を表示するため、こちらのサイトを参考にさせていただきました。

これを先ほどのマリオを合体させると、このように表示できました。

#ゲーム環境のリセット
env.reset()

#動画の準備
fig = plt.figure()
ims = []

#繰り返し操作してimsに追加
for i in range(100):
    #0:
    #1:→
    #2:→＋ジャンプ
    #3:→→
    #4:→→＋ジャンプ
    #5:ジャンプ
    #6:←
    command = nr.randint(1, 7)
    state, reward, done, info = env.step(command)
    
    #imsに追加
    im = plt.imshow(env.render(mode='rgb_array'))
    ims.append([im])
    
    if done == True:
        break
        

#imsを表示
ani = animation.ArtistAnimation(fig, ims, interval=15, blit=True)
rc('animation', html='jshtml')
ani

#保存用
#ani.save('mario.gif', writer='imagemagick')
#ani.save('mario.mp4', writer="ffmpeg")

何を最適化するのか

入力の選択肢。簡単のために、マリオの行動は３（右ダッシュ）と４（右ダッシュジャンプ）の２択しか取れないこととします。入力配列は[3, 3, 4, 3, 4, 4, 3, … , 4, 4]のような感じになり、各入力が各フレームに対応します。走り続けます。

入力配列長。一般に、1-1のクリアタイムは60秒程度なので、20[フレーム/秒]×60[秒]＝1200[フレーム]の入力配列を用意したいです。余裕をもって2000[フレーム]（100秒）用意しておきたいです。しかし、ちょっと長いですね…。

入力配列長の削減。人間がプレイする際、１秒に20入力もしないと思いますので、１入力を４フレーム継続することにして、入力数を1/4に減らしてみます。よって、500入力で済むことになります。500[入力]×４[フレーム/入力]＝2000[フレーム]です。

まとめると、入力配列は[3, 3, 4, 3, 4, 4, 3, … , 4, 4]（長さ500個）のような感じで、各入力は４フレーム継続されます。マリオがゴール（x座標＝3161）に到達できるように、vcopt().dcGA()で入力配列を最適化します。

（必須）評価関数

入力配列であるparaを受け取り、ゲームオーバーまでプレイします。スコアとして、ゲームオーバー時のx座標をそのまま返しても良いですが、ジャンプ数ができるだけ少なくなるように設計してみます。

#マリオの評価関数
def mario_score(para):
    #ゲーム環境のリセット
    env.reset()
    
    #各paraを4フレームずつ実行し、ゲームオーバーまでプレイ
    end = False
    for p in para:
        #3:→→
        #4:→→＋ジャンプ
        for i in range(4):
            state, reward, done, info = env.step(p)
            #ゲームオーバーチェック
            if done == True:
                end = True
                break

        if end == True:
            break
    
    #遠くまで進むほど（x座標）、かつ、ジャンプ割合が少ないほど高スコアとする
    return (info['x_pos']) * (np.sum(para == 3) / len(para))

（任意）poolの可視化関数

poolを受け取って、エリート個体のゲームオーバー時の1コマを見ることにしましょう。pool[best_index ]をparaとして、同様にゲームオーバーまでプレイします。

#poolの可視化（ベストの表示）
def mario_show_pool(pool, **info):
    
    #GA中の諸情報はinfoという辞書に格納されて渡されます
    #これらを受け取って使用することができます
    gen = info['gen']
    best_index = info['best_index']
    best_score = info['best_score']
    mean_score = info['mean_score']
    mean_gap = info['mean_gap']
    time = info['time']
    
    #ゲーム環境のリセット
    env.reset()

    #エリートだけ、各paraを4フレームずつ実行し、ゲームオーバーまでプレイ
    end = False
    for p in pool[best_index]:
        #3:→→
        #4:→→＋ジャンプ
        for i in range(4):
            state, reward, done, info = env.step(p)
            #ゲームオーバーチェック
            if done == True:
                end = True
                break

        if end == True:
            break
    
    #情報の表示
    print(gen, mean_score, best_score, info['x_pos'], time)
    print(pool[best_index])
    
    #最後の1コマだけ表示
    plt.imshow(env.render(mode='rgb_array'))
    plt.show()

GAで最適化

para_rangeを用意し、vcopt().dcGA()を実行します。スコアが大きい方向へ最適化しますので、第３引数は大きい数（999999など）にします。また、本来は個体数は自動設定されますが、ここでは時間短縮のためにpool_num=10のコマンドを追加しています。

#パラメータ範囲
para_range = [[3, 4] for j in range(500)]

#GAで最適化
para, score = vcopt().dcGA(para_range,                      #para_range
                           mario_score,                     #score_func
                           999999,                          #aim
                           show_pool_func=mario_show_pool,  #show_para_func=None
                           seed=1,                          #seed=None
                           pool_num=10)
#結果の表示
print(para)
print(score)

０世代目：48%地点で交通事故