現在、イベントの予定はありません ( ˘ω˘ )

3-1. 強化学習とQ学習とDQN

強化学習

2019/03/06

目次

やること
使うもの
強化学習とは
強化学習＞Q学習のアルゴリズム
複雑なゲームだとQテーブルが作れない
DQNはQテーブルをニューラルネットで近似した方法

やること

機械学習は、教師あり学習、教師なし学習、強化学習の３つに分けて語られることが多いです。強化学習は、「長期的な価値が高くなるような判断基準を見つける」感じの学習です。今日は、強化学習の基本である「Q学習」を知り、「Deep Q-network（DQN）」のアルゴリズムを確認してみます。

使うもの

ERROR: The request could not be satisfied

強化学習とは

強化学習では、

エージェントが行動する
状態（または環境）から報酬を得る

ことを繰り返しながら、報酬（目先のではなく長期的な報酬）が高くなるような行動基準を見つけます。

強化学習＞Q学習のアルゴリズム

「適当に行動する」うーん、よくわからんからとりあえずランダムに動いてみよう
「重みをつけてQテーブルを更新する」うわ、めっちゃペナルティ食らった！今回の行動パターンは控えとくか。お、なんかいっぱい報酬がもらえたぞ！これが正解なんか？今回の行動パターンはええんやな！
「Experience Replay」さっきの行動パターンええな！マイナーチェンジして探索したろ！
「ε-greedy法」あ、でももしかしたらもっと大胆な近道があるかもしれないからたまには変な方向行ってみるか！

複雑なゲームだとQテーブルが作れない

Q学習ではたくさん行動してひたすらQテーブル（どんな状態でどんな行動をすると何点の報酬がもらえるか）を埋めていきますが、囲碁やビデオゲームでは「状態×行動」のパターンが多すぎるため、Qテーブルすべてを埋めているうちに22世紀が来てしまいます。

DQNはQテーブルをニューラルネットで近似した方法

タイトルとURLをコピーしました