はじめてのゼミ

強化学習で行動選択の確率分布をBoltzmann分布で表わしたりするのだけれど、そのBoltzmann分布について元々の意味、つまり統計物理における理想気体のポテンシャルエネルギーと分布の関係式について調べて発表した。
http://www.h5.dion.ne.jp/~antibody/boltzmann.htm
の内容とほとんど一緒のことをホワイトボードで説明。その分布をなぜ強化学習の行動選択で用いるのか、という本質的なところはよく分からない (そもそもちゃんとした理屈があるのだろうか。たしかにうまくいくのだが) 。
次の発表のための資料をもらって帰ってきた。エントロピー最大則とマクスウェル分布について…?
エントロピーって情報理論のと熱力学のでどう違うんだろう。