2006-09-04から1日間の記事一覧

■

追跡問題にQ-learningを適用する実験だが、価値の伝搬がうまくいっていない。一つの状態の中での行動価値が平坦化されている。更新式は正しいはずなので、ブートストラップを行うタイミングが問題なのだと思う。と思ったんだけど、ステップ毎に小さい負の報…