-
logistic 分布:X 服从 logistic 分布是指 X 具有下面的分布函数与密度函数:
F(x)=P(X≤x)=1+e−(x−μ)/γ1
f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
-
二项 logistic 回归模型条件概率分布:
P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)
-
考虑对输入的 x 进行分类的线性函数 w⋅x,其值域为实数域。对于概率:
P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)
线性函数的值越接近正无穷,概率值就越接近于 1。这样的模型就是 logistic 模型。
-
模型参数可以使用最大似然估计。
设:P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)。似然函数为:
i=1∏N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为:
L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi))]
对 L(w) 求极大值,得到 w 的估计值。
-
最大熵原理:最大熵原理认为,学习概率模型时,在所有可能的模型中熵最大的模型是最好的模型。也就是”不要把鸡蛋装在同一个篮子里”。
-
熵满足下列不等式:
0≤H(P)≤log∣X∣
也就是说,当 X 服从均匀分布时,熵最大。
-
最大熵模型
假设满足所有约束条件的模型集合为:
C≡{P∈P∣EP(fi)=EP~(fi),i=1,2,…,n}
它定义在条件概率分布 P(Y∣X) 上的条件熵为:
H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)
则模型集合 C 中条件熵 H(P) 最大的模型称为最大熵模型。
-
求解最大熵模型使用拉格朗日法。
-
最大熵函数对偶函数的极大化等价于最大熵模型的极大似然估计。
-
模型学习的方法有改进的迭代尺度算法(improved iterative scaling, IIS)和拟牛顿法。