统计学习方法 第 01 章 统计学习方法概论

plus2047 于 2020-12-01 发布

在各种渠道零零碎碎学习了半年机器学习知识之后,越发感觉李航老师的《统计学习方法》确实是本好书。内容系统、完善又不过于繁琐,适合在有一定基础的情况下梳理自己的知识。我在学习过程中,为了日后查阅而整理了本篇笔记。除了课本知识要点之外,笔记也包括课本勘误、一些知识点的对比整理和补充。

统计学习三要素:模型(模型参数),策略(损失函数),算法(学习算法)。模型就是模型参数和使用模型参数计算概率或进行判别的函数。策略基本就是损失函数,或者最大似然估计与贝叶斯估计策略。算法则是从数据中学习模型参数的算法。

机器学习问题分类

MAP & MLE & ERM & SRM

本章教材中主要围绕损失函数的概念讲解统计学习模型的学习策略。但当学习的目标是某个概率分布时,可以定义其他学习策略。这里列举经常碰到的一些策略。

最小化训练集损失,经验风险最小化 Empirical rist minimization, ERM:

\[\theta_{ERM} = \arg\min_\theta \frac 1 N \sum_n L(y_i, P_\theta(y \mid x_i))\]

考虑到先验信息、过拟合等,对损失函数引入正则项,可以定义结构风险最小化 Structural rist minimization, SRM:

\[\theta_{SRM} = \arg\min_\theta \frac 1 N \sum_n L(y_i, P_\theta(y \mid x_i)) + \lambda J(\theta)\]

对于概率模型,可以定义极大似然估计 Maximum likelihood estimation, MLE:

\[\theta_{MLE} = \arg\max_\theta P(X \mid \theta)\]

以及最大后验估计(也即贝叶斯估计)Maximum a-posterior probability estimation, Bayesion estimation, MAP:

\[\theta_{MAP} = \arg\max_\theta P(\theta \mid X) = \arg\max_\theta P(X \mid \theta) P(\theta)\]

若 ERM 策略采用对数损失函数:

\[L(y_i, P_\theta(y \mid x_i)) = - \log P_\theta(y_i \mid x_i)\]

则 ERM 估计与 MLE 估计等价。证明见习题题解。相应的,MAP 则有时能等价为采用了特定正则项的 SRM 估计。

先验分布与经验分布

$X, Y$ 分别表示训练数据,测试数据,则有,

习题题解

1.1

说明伯努利模型的三要素。

这里的伯努利模型可以视为第四章朴素贝叶斯法的单变量的简化,具体推导详见第四章。更准确地说是本书第四章朴素贝叶斯方法选取的概率模型是伯努利分布。

1.2

证明模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

\[\begin{align*} \theta_{ERM} &= \arg\min_\theta \sum_i \left[ - \log P_\theta(y_i \mid x_i) \right] \\ &= \arg\max_\theta \sum_i \log P_\theta(y_i \mid x_i) \\ &= \arg\max_\theta \log \prod_i P_\theta(y_i \mid x_i) \\ &= \arg\max_\theta \log P_\theta(Y \mid X) \\ &= \arg\max_\theta P_\theta(Y \mid X) \\ &= \theta_{MLE} \end{align*}\]