■

強化学習研究雑記強化学習研究雑記

今やっている研究は結局環境に関する知識を人間が与えてしまっているから学習を高速化できるわけで、環境のモデル化を自動化できないと本質的な解決とは言えない。環境のモデル化・抽象化？例えばリンゴを見たとして、周囲の色と明確に異なるリンゴの赤によ…

CLOSとか

研究 LISP

追跡問題においては,複数のエージェントをクロージャとして生成してきたわけだが,エージェントの型が増えるにつれエージェント生成器生成器,エージェント生成器生成器生成器(ryが必要になってきたのでCLOSで書き直した. なんとなくオブジェクト指向を使った…

研究

来月の始めに提出する予稿を書いている。ごりごり。A4一枚。どうでもいいがシミュレーション用のパソコン＠研究室が遅すぎる。貧弱！貧弱ゥ！*1そこで学校のリモート接続可なソラリスでSBCLを動かそうと思った。でも大して速度がでない… いやあすっかり秋…

研究

うおおお朝から学校だった… 今日はここまでのところの経過報告をする発表だった。肝心の階層化のモデルを提案するところがまだあやふやだったのでなんとか誤魔化そうとしたら無情にも他の研究室の先生に突っ込まれた。これってあれですね、マーフィーの法則…

研究

卒業研究にあたっては中間発表があるが、うちの研究室では二回やるらしい。８月の頭にプレ中間発表、１０月には中間発表、来年２月に卒研発表の本番がある。プレ中間では選択したテーマの周辺を説明して今後のロードマップを示すという感じだけど、この三ヶ…

研究

先達が「方策勾配法による状態空間の削減」というものを研究しておられるようなので、それを利用して階層化を試みる。少ない状態空間による学習を上位層に置いて、下位層の具体的な学習に影響を与える。方策勾配法が非ブートストラップ手法*1なので下位層に…

研究

とりあえずできたので、次はすこし賢くしてみようと思います。卒研プレゼミナールという授業でつくったQ学習のプログラムがあるので、それを流用する。あとあと再利用できるように問題に依存しないインターフェースを設計しておくと何かとおいしい。前は状態…

研究

強化学習の手法のひとつで、方策(policy)の中にパラメータを組み込んでそれに対する目的関数の変化率を調べることで更新式を導出する手法。28日にこれの解説をすることになってるけどよく分からない。基本的には最急降下法なんだけど…前の四年生はこれを追跡…