Skip to content
Mo's Blog
Go back

《统计学习方法》读书笔记6:logistic回归与最大熵模型

机器学习
  1. logistic 分布:XX 服从 logistic 分布是指 XX 具有下面的分布函数与密度函数:

    F(x)=P(Xx)=11+e(xμ)/γF(x) = P(X \leq x) = \frac{1}{1 + e^{-(x-\mu)/\gamma}} f(x)=F(x)=e(xμ)/γγ(1+e(xμ)/γ)2f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma (1 + e^{-(x-\mu)/\gamma})^2}
  2. 二项 logistic 回归模型条件概率分布:

    P(Y=1x)=exp(wx+b)1+exp(wx+b)P(Y = 1 \mid x) = \frac{\exp(w \cdot x + b)}{1 + \exp(w \cdot x + b)}
  3. 考虑对输入的 xx 进行分类的线性函数 wxw \cdot x,其值域为实数域。对于概率:

    P(Y=1x)=exp(wx)1+exp(wx)P(Y = 1 \mid x) = \frac{\exp(w \cdot x)}{1 + \exp(w \cdot x)}

    线性函数的值越接近正无穷,概率值就越接近于 1。这样的模型就是 logistic 模型。

  4. 模型参数可以使用最大似然估计。

    设:P(Y=1x)=π(x)P(Y = 1 \mid x) = \pi(x)P(Y=0x)=1π(x)P(Y = 0 \mid x) = 1 - \pi(x)。似然函数为:

    i=1N[π(xi)]yi[1π(xi)]1yi\prod_{i=1}^{N} [\pi(x_i)]^{y_i} [1 - \pi(x_i)]^{1 - y_i}

    对数似然函数为:

    L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilogπ(xi)1π(xi)+log(1π(xi))]=i=1N[yi(wxi)log(1+exp(wxi))]\begin{aligned} L(w) &= \sum_{i=1}^{N} \left[ y_i \log \pi(x_i) + (1 - y_i) \log(1 - \pi(x_i)) \right] \\ &= \sum_{i=1}^{N} \left[ y_i \log \frac{\pi(x_i)}{1 - \pi(x_i)} + \log(1 - \pi(x_i)) \right] \\ &= \sum_{i=1}^{N} \left[ y_i (w \cdot x_i) - \log(1 + \exp(w \cdot x_i)) \right] \end{aligned}

    L(w)L(w) 求极大值,得到 ww 的估计值。

  5. 最大熵原理:最大熵原理认为,学习概率模型时,在所有可能的模型中熵最大的模型是最好的模型。也就是”不要把鸡蛋装在同一个篮子里”。

  6. 熵满足下列不等式:

    0H(P)logX0 \leq H(P) \leq \log |\mathcal{X}|

    也就是说,当 XX 服从均匀分布时,熵最大。

  7. 最大熵模型

    假设满足所有约束条件的模型集合为:

    C{PPEP(fi)=EP~(fi),  i=1,2,,n}\mathcal{C} \equiv \{ P \in \mathcal{P} \mid E_P(f_i) = E_{\tilde{P}}(f_i), \; i = 1, 2, \ldots, n \}

    它定义在条件概率分布 P(YX)P(Y \mid X) 上的条件熵为:

    H(P)=x,yP~(x)P(yx)logP(yx)H(P) = -\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x)

    则模型集合 C\mathcal{C} 中条件熵 H(P)H(P) 最大的模型称为最大熵模型。

  8. 求解最大熵模型使用拉格朗日法。

  9. 最大熵函数对偶函数的极大化等价于最大熵模型的极大似然估计。

  10. 模型学习的方法有改进的迭代尺度算法(improved iterative scaling, IIS)和拟牛顿法。


Share this post on:

Previous Post
拉格朗日对偶性
Next Post
《统计学习方法》读书笔记5:决策树