!!! サイト改修中のため表示が乱れる場合があります(1月末頃まで) !!!
強化学習

3-1. 強化学習とQ学習とDQN

やること

機械学習は、教師あり学習、教師なし学習、強化学習の3つに分けて語られることが多いです。強化学習は、「長期的な価値が高くなるような判断基準を見つける」感じの学習です。今日は、強化学習の基本である「Q学習」を知り、「Deep Q-network(DQN)」のアルゴリズムを確認してみます。

使うもの

AIワークショップ|初心者だけど強化学習(DQN)できちゃった (2018/09/28 19:00〜)
# 情報交換はAI FASHIONのSlack(参加ボタン)の方でお願いします。 ## 概要 ノートPCを持参して、強化学習で「迷路を解く」AIを作ってみよう。 「プログラム環境の準備」からやりますの...

強化学習とは

強化学習では、

  • エージェントが行動する
  • 状態(または環境)から報酬を得る

ことを繰り返しながら、報酬(目先のではなく長期的な報酬)が高くなるような行動基準を見つけます。

強化学習>Q学習のアルゴリズム

  • 「適当に行動する」うーん、よくわからんからとりあえずランダムに動いてみよう
  • 「重みをつけてQテーブルを更新する」うわ、めっちゃペナルティ食らった!今回の行動パターンは控えとくか。お、なんかいっぱい報酬がもらえたぞ!これが正解なんか?今回の行動パターンはええんやな!
  • 「Experience Replay」さっきの行動パターンええな!マイナーチェンジして探索したろ!
  • 「ε-greedy法」あ、でももしかしたらもっと大胆な近道があるかもしれないからたまには変な方向行ってみるか!

複雑なゲームだとQテーブルが作れない

Q学習ではたくさん行動してひたすらQテーブル(どんな状態でどんな行動をすると何点の報酬がもらえるか)を埋めていきますが、囲碁やビデオゲームでは「状態×行動」のパターンが多すぎるため、Qテーブルすべてを埋めているうちに22世紀が来てしまいます。

DQNはQテーブルをニューラルネットで近似した方法

リアクションのお願い

「参考になった!」「刺激された!」と思ったらぜひリアクションをしましょう。エンジニアの世界はGive and Takeによって成り立っています。これからも無料で良質な情報にアクセスできるよう、Giveする人への感謝をリアクションで示しましょう!

この記事をシェアする

自身のブログ等で使用する場合は引用を忘れずに!

また、寄付も受け付けています。コーヒー1杯でとても喜びます(*˘︶˘*)

 Amazonでギフト券(アマギフ)を贈る

こちらのリンク から金額を指定してお贈りください。(デフォルトで10000円になっているのでご変更ください)

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 Amazonで食事券(すかいらーく優待券)を贈る

500円 1000円 2000円 5000円 からお贈りください。

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 その他、ギフト券やクーポン券をメールで贈る

デジタルのギフト券/クーポン券はメールアドレス(staffあっとvigne-cla.com)までお送りください。受領の返信をいたします。
紙のギフト券/クーポン券は 「郵便物はこちらへ」の住所 まで送付してください。名刺やメールアドレスを同封していただければ受領の連絡をいたします。
余った株主優待券等の処理におすすめです。
いずれも見返りはありませんのでご了承ください。

不明点はSNSでお気軽にご連絡ください

ビネクラのTwitter・Youtubeでコメントをください!


Slack・Discordの場合はこちらの公開グループに参加してShoya YasudaまでDMをください!


※当ブログに関することは何でもご相談・ご依頼可能です。

この記事を書いた人
Yasuda

博士(理学)。専門は免疫細胞、数理モデル、シミュレーション。米国、中国で研究に携わった。遺伝的アルゴリズム信者。物価上昇のため半額弁当とともに絶滅寸前。

タイトルとURLをコピーしました