先達が「方策勾配法による状態空間の削減」というものを研究しておられるようなので、それを利用して階層化を試みる。少ない状態空間による学習を上位層に置いて、下位層の具体的な学習に影響を与える。方策勾配法が非ブートストラップ手法*1なので下位層にはQ学習のようなブートストラップ手法を置きたい。TD(&lambda)の学習速度を見るに、ブートストラップ手法と非ブートストラップ手法を組み合わせたものの性能が良さげである。
上位階層の価値を組み込むとすると、Q学習などのアルゴリズムをいじる必要が出てくるので原理である動的計画法、特にBellman方程式について調べる。