追跡問題にQ-learningを適用する実験だが、価値の伝搬がうまくいっていない。一つの状態の中での行動価値が平坦化されている。更新式は正しいはずなので、ブートストラップを行うタイミングが問題なのだと思う。

と思ったんだけど、ステップ毎に小さい負の報酬(要するに罰)を与えたら良くなった。別にこんな事しないでも最適解に収束してもらわないと困るなあ。
実際にグリッドを描画してモニタリングしてみるとたまにあからさまにデッドロックに入っている場面に出くわす。こういうのって状態空間の表現の問題なんだろうけど、できるだけ人間が作り込んでやらなくてもいいようにしたいですね。