从最大熵原理看ML和RL

一个经常被问的问题:为什么Logistic回归要使用Sigmoid函数?

最大熵原理 (ME)

在强化学习领域,有一个比较SOTA的算法叫做SAC(Soft Actor-critic),其核心思想就是使用熵去增强强化学习的目标,从而能够得到更加鲁棒、更具探索性的Agent。在SAC中,有一个关键的问题是怎样去建模策略$\pi$的分布。受限于复杂度和采样需求,在原论文中作者使用高斯分布去对策略$\pi(a|s)$进行近似和简化,但是也有许多后续的工作去探讨能否找到具有同样的数学性质、但表示能力更强的分布。

恰好最近在听吴建鑫老师的《模式识别》课程,其中有一个很有意思的知识点:在满足方差为$\sigma^2$的所有可能的概率分布中,高斯分布是熵最大化的分布。于是突然感觉在许多ML和RL的问题中利用Gaussian建模分布是不无道理的,其背后正是最大熵原理——

The probability distribution which best represents the current state of knowledge about a system is the one with largest entropy, in the context of precisely stated prior data (such as a proposition that express testable information).

Principle of Maximum Entropy

如果我们这里稍微延伸开来,使用一点统计上的说法,那么最大熵原理可以表述为:在满足系统宏观表现/统计量的前提下,最贴近真实状态的系统结构应当是熵最大的结构。因此Gaussian的含义就是:在关注二阶统计量(方差)时,Gaussian就是满足最大熵的概率分布。

不过,还有一些遗留问题没有解决:

  • 最大熵原理是否能够解释一些已经相当成功的机器学习算法?
  • 约束条件的选择?
  • 强化学习又该怎样利用最大熵原理?

ME in ML

如果在人工智能学院拦个新生折磨,问他为什么要使用Sigmoid函数,大概得到的回答是它的输出在$[0, 1]$之间,可以作为概率值/它是连续光滑的云云,但这只是Sigmoid的良好性质,只是必要条件

利用最大熵原理,我们可以给出Sigmoid被应用到Logistic回归的充分条件:Sigmoid所导出的正是一个最大熵模型。

最大熵视角下的Logistic回归

  • 为了将Logistic回归建模为一个最大熵优化问题,我们给出如下定义
    • 样本$ \boldsymbol{x}_i\in X $,标签$ y\in Y $
    • 样本的经验分布$ \tilde{P}(\boldsymbol{x}), \tilde{P}(\boldsymbol{x}, y) $
    • 模型的特征函数$f_i(\boldsymbol{x}, y)$,我们要求这些特征函数的值在经验分布(样本)和模型分布($P(\boldsymbol{x}, y)=\tilde{P}(x)h(y|\boldsymbol{x}) $)下期望一致。
  • 使用生成式模型的视角,我们需要寻找的是具有最大条件熵的条件概率$h(y|\boldsymbol{x})$,因此形式化为其中第一类约束条件为概率分布的约束,第二类为特征一致性约束,我们这里暂时不考虑概率的非负性。
  • 求解拉格朗日函数,为
  • 对$h$求导可得解得
  • 由$\sum_{y}h(y|\boldsymbol{x})=1$的约束条件可解得此时我们已经得到了类似Softmax的形式。

对偶问题与极大似然估计

上面求解对偶问题实际上是两层优化:内层对原变量最小化,和外层对对偶变量最大化。在这一节,我们展示极大似然估计与对偶问题外层最大化实际上是相同的。

  • 考虑LR的极大似然估计,对数似然函数为
  • 将上面得到的结果$h^*=h(y|\boldsymbol{x})$代入拉格朗日函数,得到待最大化的对偶函数为
  • 可以发现,$L(h, \mu_1, \mu_2)=LL(\tilde{P})$!因此对于LR,极大似然估计和最大熵模型的对偶问题优化是等价的。

Logistic回归是最大熵的退化

  • 上面已经给出了最大熵视角下的Logistic回归,并证明了MLE和ME对偶问题求解的等价性。但我们还需要指出,Logistic回归其实是最大熵问题的退化形式,为此我们给出在Logistic回归中,特征函数$f_i(\boldsymbol{x}, y)$的形式。
  • 由上文,我们令此时将求解得到的对偶乘子$\mu_{2, i}$解释为权重$w_i$,那么有正是Logistic回归的形式。

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!