追跡問題にQ-learningを適用する実験だが、価値の伝搬がうまくいっていない。一つの状態の中での行動価値が平坦化されている。更新式は正しいはずなので、ブートストラップを行うタイミングが問題なのだと思う。と思ったんだけど、ステップ毎に小さい負の報…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。