《统计学习方法》读书笔记1：概论

统计学习的三要素是模型、策略、和算法。方法 = 模型 + 策略 + 算法。
1. 模型就是所要学习的条件概率分布或决策函数。
2. 按照什么样的准则学习或选择最优模型就是策略。
  1. 首先要引入损失函数的概念，度量预测错误的程度。
  2. 风险函数或期望损失指的是损失函数的期望：
    $R_{\text{exp}}(f) = E_P[L(Y, f(X))] = \int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \, \mathrm{d}x \, \mathrm{d}y$
    学习的目标是让期望损失最小化。但是 $P(x, y)$ 未知，所以无法得到这个期望。于是一个替代办法是使用经验风险或经验损失替代：
    $R_{\text{emp}}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i))$
    根据大数定律，样本足够大时 $R_{\text{emp}}(f)$ 会趋于 $R_{\text{exp}}(f)$ 。但是样本不足时就会有偏差，需要矫正。
  3. 经验风险最小化指的就是上面所说的直接最小化 $R_{\text{emp}}(f)$ 。结构风险最小化是为了防止样本不足产生的偏差。结构风险最小化等价于正则化，结构风险的定义是：
    $R_{\text{srm}}(f) = \frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i)) + \lambda J(f)$
  4. 贝叶斯中的极大后验概率估计（maximum a posteriori estimation, MAP）是结构风险最小化的一个例子。
3. 算法是指具体的计算方法。
模型评估需要引入训练误差和测试误差。训练误差能判定当前的方法是不是能学习这些数据，测试误差反应了预测未知数据的能力。如果学习方法训练误差很小而测试误差很大，这种现象就是过拟合。在模型选取中，应该用结构风险最小化的方式避免过拟合。
正则化和交叉验证是模型选择的重要方法。
评估泛化能力可以使用泛化能力上界。这个证明比较复杂，留待以后看。
模型分为生成模型和判别模型。简单地说，生成模型就是给定 $X$ 能输出 $Y$ ，判别模型是给定 $(X, Y)$ 判定是不是正确的。
分类问题是监督学习的一个核心问题。评估指标一般是准确率。对于二分类问题，精确率（precision）：
$P = \frac{TP}{TP + FP}$
与召回率（recall）：
$R = \frac{TP}{TP + FN}$
也是非常重要的指标。此外，还有一个指标是二者的调和平均：
$F_1 = \frac{2 TP}{2 TP + FP + FN}$
标注问题可以看做分类问题的扩展。例如，自然语言处理中的词性标注就是一个典型标注问题。
回归问题是考察 $X$ 与 $Y$ 之间关系的一类问题。在预测领域有广泛应用。