Boltzmann選択

ランダム選択とグリーディ選択の中間的な選択法.
\pi(s_t,a_t)=\frac{e^{Q(s_t,a_t)/\tau}}{\sum_{a_k\in\mathcal{A}}\,e^{Q(s_t,a_k)/\tau}}
\tau\rightarrow\inftyのとき, \pi(s_t,a_t)=\frac{1}{\sum_{a_k\in\mathcal{A}}\,1} = \frac{1}{n} となってランダム選択に一致する.
\tau\rightarrow0のとき,
\begin{eqnarray*} \pi(s_t,a_t) & = & \frac{e^{Q(s_t,a_t)/\tau}}{\sum_{a_k\in\mathcal{A}}\,e^{Q(s_t,a_k)/\tau}} \\ & = & \frac{e^{Q(s_t,a_t)/\tau}} {\sum_{a_k\in\mathcal{A},a_k \neq a_t}\,e^{Q(s_t,a_k)/\tau} + e^{Q(s_t,a_t)/\tau}} \\ & = & \frac{1}{\frac{\sum_{a_k\in\mathcal{A},a_k \neq a_t}\,e^{Q(s_t,a_k)/\tau}}{e^{Q(s_t,a_t)/\tau}} + 1} \\ \end{eqnarray*}
\alpha = \frac{\sum_{a_k\in\mathcal{A},a_k \neq a_t}\,e^{Q(s_t,a_k)/\tau}}{e^{Q(s_t,a_t)/\tau}}として, \pi(s_t,a_t)=\frac{1}{\alpha + 1}.
定数/0の不定形の発散のスピードは最大の次数を持つ項に従うため, Q(s_t,a_t) \geq Q(s_t,a_k)\,\,(a_k\in\mathcal{A}) のとき\alpha\rightarrow 0. 従って\pi(s_t,a_t)\rightarrow 1. そうでないときは\alpha\rightarrow\inftyとなって\pi(s_t,a_t)\rightarrow 0になり,グリーディ選択と一致する.
このことから,Boltzmann選択では学習の初期には\tauを大きくとって,学習の進行とともに徐々に\tauを小さくしていくのが良いと考えられる.