期待値一定とはどういうことか

強化学習や疑似焼きなまし法での行動選択確率の確率分布にはボルツマン分布がよく用いられる。
ボルツマン分布は「確率の和が1」、「期待値一定」という二つの制約条件の下でエントロピーを最大化させたときに出てくる確率分布。
期待値が出てくるということは、ボルツマン分布を定義するためには一つの事象の発生確率に対応する何らかの値(報酬など)があるということ。しかもそれが一定値に収束することを前提としていることが分かる。Q学習でいうならQ値が最終的になんらかの固定値(最適価値関数)に収束するという前提を条件として組み込んでいることになる。
確率に対応する値をエネルギーと考えると、エネルギーの平均が一定値である、つまり平衡状態を表している。統計力学では熱平衡状態であるための必要十分条件としてボルツマン分布が出てくるらしいけど、なんか納得できた。