Skip to content
Mo's Blog
Go back

《统计学习方法》读书笔记1:概论

机器学习
  1. 统计学习的三要素是模型策略、和算法。方法 = 模型 + 策略 + 算法。

    1. 模型就是所要学习的条件概率分布或决策函数。
    2. 按照什么样的准则学习或选择最优模型就是策略
      1. 首先要引入损失函数的概念,度量预测错误的程度。

      2. 风险函数或期望损失指的是损失函数的期望:

        Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdyR_{\text{exp}}(f) = E_P[L(Y, f(X))] = \int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \, \mathrm{d}x \, \mathrm{d}y

        学习的目标是让期望损失最小化。但是 P(x,y)P(x, y) 未知,所以无法得到这个期望。于是一个替代办法是使用经验风险或经验损失替代:

        Remp(f)=1Ni=1NL(yi,f(xi))R_{\text{emp}}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i))

        根据大数定律,样本足够大时 Remp(f)R_{\text{emp}}(f) 会趋于 Rexp(f)R_{\text{exp}}(f)。但是样本不足时就会有偏差,需要矫正。

      3. 经验风险最小化指的就是上面所说的直接最小化 Remp(f)R_{\text{emp}}(f)。结构风险最小化是为了防止样本不足产生的偏差。结构风险最小化等价于正则化,结构风险的定义是:

        Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f)R_{\text{srm}}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i)) + \lambda J(f)
      4. 贝叶斯中的极大后验概率估计(maximum a posteriori estimation, MAP)是结构风险最小化的一个例子。

    3. 算法是指具体的计算方法。
  2. 模型评估需要引入训练误差和测试误差。训练误差能判定当前的方法是不是能学习这些数据,测试误差反应了预测未知数据的能力。如果学习方法训练误差很小而测试误差很大,这种现象就是过拟合。在模型选取中,应该用结构风险最小化的方式避免过拟合。

  3. 正则化交叉验证是模型选择的重要方法。

  4. 评估泛化能力可以使用泛化能力上界。这个证明比较复杂,留待以后看。

  5. 模型分为生成模型判别模型。简单地说,生成模型就是给定 XX 能输出 YY,判别模型是给定 (X,Y)(X, Y) 判定是不是正确的。

  6. 分类问题是监督学习的一个核心问题。评估指标一般是准确率。对于二分类问题,精确率(precision):

    P=TPTP+FPP = \frac{TP}{TP + FP}

    与召回率(recall):

    R=TPTP+FNR = \frac{TP}{TP + FN}

    也是非常重要的指标。此外,还有一个指标是二者的调和平均:

    F1=2TP2TP+FP+FNF_1 = \frac{2 TP}{2 TP + FP + FN}
  7. 标注问题可以看做分类问题的扩展。例如,自然语言处理中的词性标注就是一个典型标注问题。

  8. 回归问题是考察 XXYY 之间关系的一类问题。在预测领域有广泛应用。


Share this post on:

Previous Post
《统计学习方法》读书笔记2:感知机
Next Post
TensorFlow实战2:逻辑回归(Logistic Regression)