動的計画法

先達が「方策勾配法による状態空間の削減」というものを研究しておられるようなので、それを利用して階層化を試みる。少ない状態空間による学習を上位層に置いて、下位層の具体的な学習に影響を与える。方策勾配法が非ブートストラップ手法*1なので下位層にはQ学習のようなブートストラップ手法を置きたい。TD(&lambda)の学習速度を見るに、ブートストラップ手法と非ブートストラップ手法を組み合わせたものの性能が良さげである。
上位階層の価値を組み込むとすると、Q学習などのアルゴリズムをいじる必要が出てくるので原理である動的計画法、特にBellman方程式について調べる。

*1:ブートストラップとは、他の価値の推定値を現在更新中の価値の推定値の更新に利用する手法。これでも更新回数が増えれば最適な価値関数へ収束する。代表的な例としては動的計画法があり、それに派生するTD学習やQ学習もブートストラップ手法である。非ブートストラップのものにはモンテカルロ法やProfit Sharingがある。