強化学習の階層化

実際目に見えているobjectについて考えることよりもある程度抽象化された形で考えた方が楽だ。だから具体的なこと（e.g.チェスの盤上の配置）から抽象的なより上位のレベル（e.g.定石や戦略）への変換が必要になる。上位のレベルではtrivialなことは捨象され…

2006-05-20

emacs+辞書まわり

SDICが遅いのでそのうち英辞郎を買ってきてFreeWPING化してlookupで参照できるようにしておこうと思っていた。 lookup, ebnetd, freewping, jcode.plなどをportsからインストールする。検索したら関連した記事が出てきたけどGoogleのCacheに残っているのみだ…

2006-05-03

期待値一定とはどういうことか

強化学習や疑似焼きなまし法での行動選択確率の確率分布にはボルツマン分布がよく用いられる。ボルツマン分布は「確率の和が１」、「期待値一定」という二つの制約条件の下でエントロピーを最大化させたときに出てくる確率分布。期待値が出てくるというこ…

masatoi’s blog

2006-05-01から1ヶ月間の記事一覧

強化学習の階層化

emacs+辞書まわり

期待値一定とはどういうことか