最近研究Softmax时发现一个有意思的结论,这里简单记录下。

Softmax和温度

给定:

Softmax定义为:

在实际中还有温度参数$\tau$,主要是控制Softmax的陡峭程度,计算公式为:

Softmax极值项关于$\tau$有一个单调性的结论:

  1. Softmax最大分量关于$\tau$递减;
  2. Softmax最小分量关于$\tau$递增;

关于温度的导数

为了证明结论,考虑如下函数的导数:

关于$\tau$求导可得:

结论证明

Softmax最大分量满足:

所以:

Softmax最小分量满足:

所以:

直观解释

  • $\tau$越大,分布越不集中,所以最大值会减小,最大值会增大;