《统计学习方法》读书笔记6：logistic回归与最大熵模型

logistic 分布： $X$ 服从 logistic 分布是指 $X$ 具有下面的分布函数与密度函数：
$F(x) = P(X \leq x) = \frac{1}{1 + e^{-(x-\mu)/\gamma}}$ $f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma (1 + e^{-(x-\mu)/\gamma})^2}$
二项 logistic 回归模型条件概率分布：
$P(Y = 1 \mid x) = \frac{\exp(w \cdot x + b)}{1 + \exp(w \cdot x + b)}$
考虑对输入的 $x$ 进行分类的线性函数 $w \cdot x$ ，其值域为实数域。对于概率：
$P(Y = 1 \mid x) = \frac{\exp(w \cdot x)}{1 + \exp(w \cdot x)}$
线性函数的值越接近正无穷，概率值就越接近于 1。这样的模型就是 logistic 模型。
模型参数可以使用最大似然估计。

设： $P(Y = 1 \mid x) = \pi(x)$ ， $P(Y = 0 \mid x) = 1 - \pi(x)$ 。似然函数为：
$\prod_{i=1}^{N} [\pi(x_i)]^{y_i} [1 - \pi(x_i)]^{1 - y_i}$
对数似然函数为：
$\begin{aligned} L(w) &= \sum_{i=1}^{N} \left[ y_i \log \pi(x_i) + (1 - y_i) \log(1 - \pi(x_i)) \right] \\ &= \sum_{i=1}^{N} \left[ y_i \log \frac{\pi(x_i)}{1 - \pi(x_i)} + \log(1 - \pi(x_i)) \right] \\ &= \sum_{i=1}^{N} \left[ y_i (w \cdot x_i) - \log(1 + \exp(w \cdot x_i)) \right] \end{aligned}$
对 $L(w)$ 求极大值，得到 $w$ 的估计值。
最大熵原理：最大熵原理认为，学习概率模型时，在所有可能的模型中熵最大的模型是最好的模型。也就是”不要把鸡蛋装在同一个篮子里”。
熵满足下列不等式：
$0 \leq H(P) \leq \log |\mathcal{X}|$
也就是说，当 $X$ 服从均匀分布时，熵最大。
最大熵模型

假设满足所有约束条件的模型集合为：
$\mathcal{C} \equiv \{ P \in \mathcal{P} \mid E_P(f_i) = E_{\tilde{P}}(f_i), \; i = 1, 2, \ldots, n \}$
它定义在条件概率分布 $P(Y \mid X)$ 上的条件熵为：
$H(P) = -\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x)$
则模型集合 $\mathcal{C}$ 中条件熵 $H(P)$ 最大的模型称为最大熵模型。
求解最大熵模型使用拉格朗日法。
最大熵函数对偶函数的极大化等价于最大熵模型的极大似然估计。
模型学习的方法有改进的迭代尺度算法（improved iterative scaling, IIS）和拟牛顿法。