輪読 - masatoi’s blog

作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
出版社/メーカー: 森北出版
発売日: 2000/12/01
メディア: 単行本（ソフトカバー）
購入: 5人クリック: 76回
この商品を含むブログ (29件) を見る

先生には最早そういう時期ではないと言われたけどこれの輪読会をセッティングしてみた。この本は生協で安売りしてたこともあって、参加者には買ってもらった。水曜にやった１章では、強化学習が試行錯誤による学習であること、他の最適化手法との違い、探索と搾取とのジレンマを考えるほとんど唯一の手法であることなどが述べられている。

選択的/連想的による最適化手法の分類

手法	選択的	連想的
進化	あり	なし
教師あり	なし	あり
強化学習	あり	あり

選択的とは試行錯誤などで探索を行うかどうか、連想的とは記憶を用いる手法かどうかだと解釈している。シミュレーテッドアニーイングなども進化的手法に分類されるらしい。強化学習は探索もするし記憶も使うから両方あり。ランダム性と知識利用の兼ね合いを考える必要がある。昨日紹介した本の中でも、これまでによく研究されていたニューラルネットだと例からの訓練時には学習を行うが、実際の運用時には学習しないことがダメなんだと主張されていたような気がする。