方策勾配法

強化学習の手法のひとつで、方策(policy)の中にパラメータを組み込んでそれに対する目的関数の変化率を調べることで更新式を導出する手法。28日にこれの解説をすることになってるけどよく分からない。基本的には最急降下法なんだけど…

前の四年生はこれを追跡問題の学習に使っていたらしくて、追跡問題の為のシミュレータを残していった。今後のことも考えてクライアント=サーバで書きなおしている。モニタリングの為にGUIが必要なのでGTKとか調べているわけで。