強化学習

今やっている研究は結局環境に関する知識を人間が与えてしまっているから学習を高速化できるわけで、環境のモデル化を自動化できないと本質的な解決とは言えない。環境のモデル化・抽象化?例えばリンゴを見たとして、周囲の色と明確に異なるリンゴの赤によ…

輪読

強化学習作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章出版社/メーカー: 森北出版発売日: 2000/12/01メディア: 単行本(ソフトカバー)購入: 5人 クリック: 76回この商品を含むブログ (29件) を見る先生には最早そういう時期ではないと言われた…

状態を多重化する

人間は一つの状況に対して複数の異なった見方を持つことがある。たとえば ただの六面体でもよく見てると色々な底面がとれるに気づく。向きが変わって見えるなり。最初にこれがテーブルの上に置かれた六面体を上から見下ろしているように感じるのは、自分の頭…

科学技術振興団の研究業績ビデオがおもしろい件

脳を創り、脳を知る http://www.jst.go.jp/erato/video/1996.htm これの一番上のプロジェクトから出た論文はよく見かけていたんだけど、ビデオで概括されていてとてもありがたかった。わかりやすいしおもすろい。人型ロボットが良い感じ。これの他にもナノテ…

BairdのVAPSアルゴリズムを元にした方策勾配法の学習速度が激遅。目的関数のパラメタの更新式の意味を読み間違えていたらしい。

追跡問題にQ-learningを適用する実験だが、価値の伝搬がうまくいっていない。一つの状態の中での行動価値が平坦化されている。更新式は正しいはずなので、ブートストラップを行うタイミングが問題なのだと思う。と思ったんだけど、ステップ毎に小さい負の報…

階層型の学習システム

に関する論文を色々物色している。ほとんど数学だ。ひいい 日本語の論文でも理解に苦しむのだから、英語の論文となるともうなにをかいわんやである。 ちょっと要点だけまとめてみる。 動機 主に学習の高速化 状態数の削減 現状 離散環境での階層化は既に結構…

on-policyとoff-policy

Suttonの教科書に良く出てくる表現で、学習の過程で方策の評価、改善が行われるものをon-policy、そうではないものをoff-policyと呼ぶ。on-policyの手法としては動的計画法*1やSarsaがあり、off-policyの手法にはQ-learningがある。Q-learningは価値の更新を…