![机器学习公式详解](https://wfqqreader-1252317822.image.myqcloud.com/cover/741/36862741/b_36862741.jpg)
第2章 模型评估与选择
式(2.20)
解析
在解释式之前,需要先弄清楚
曲线的具体绘制过程.下面我们就举个例子,按照“西瓜书”图2.4下方给出的绘制方法来讲解一下
曲线的具体绘制过程.
假设我们已经训练得到一个学习器,现在用该学习器来对8个测试样本(4个正例,4个反例,即
)进行预测,预测结果为:
此处用表示样本, 以和坐标
作出区分
其中,和
分别表示样本为正例和为反例,数字表示学习器
预测该样本为正例的概率,例如对于反例
来说, 当前学习器
预测它是正例的概率为
.
上面给出的预测结果已经按照预测值从大到小排序
根据“西瓜书”上给出的绘制方法,首先需要对所有测试样本按照学习器给出的预测结果进行排序,接着将分类阈值设为一个不可能取到的最大值.显然,此时所有样本预测为正例的概率都一定小于分类阈值,那么预测为正例的样本个数为0,相应的真正例率和假正例率也都为0,所以我们可以在坐标处标记一个点. 接下来需要把分类阈值从大到小依次设为每个样本的预测值,也就是依次设为0.77, 0.62, 0.58, 0.47, 0.33, 0.23,0.15,然后分别计算真正例率和假正例率,再在相应的坐标上标记点,最后再将各个点用直线连接, 即可得到
曲线.需要注意的是,在统计预测结果时,预测值等于分类阈值的样本也被算作预测为正例. 例如,当分类阈值为
时,测试样本
被预测为正例,由于它的真实标记也是正例,所以此时
是一个真正例.为了便于绘图,我们将
轴(假正例率轴)的“步长”定为
,
轴(真正例率轴)的“步长”定为
.根据真正例率和假正例率的定义可知,每次变动分类阈值时,若新增
个假正例,那么相应的
轴坐标也就增加
;若新增
个真正例,那么相应的
轴坐标也就增加
.按照以上讲述的绘制流程,最终我们可以绘制出如图2-1所示的
曲线.
图2-1 ROC曲线示意
注: 表示红色线段;
表示蓝色线段;
表示绿色线段
在这里,为了能在解析式(2.21)时复用此图,我们没有写上具体的数值,转而用其数学符号代替.其中绿色线段表示在分类阈值变动的过程中只新增了真正例,红色线段表示只新增了假正例,蓝色线段表示既新增了真正例也新增了假正例.根据值的定义可知,此时的
值其实就是所有红色线段和蓝色线段与
轴围成的面积之和.观察图2-1可知,红色线段与
轴围成的图形恒为矩形,蓝色线段与
轴围成的图形恒为梯形.由于梯形面积式既能算梯形面积,也能算矩形面积,所以无论是红色线段还是蓝色线段,其与
轴围成的面积都能用梯形公式来计算:
其中,为“高”,
为“上底”,
为“下底”.那么对所有红色线段和蓝色线段与
轴围成的面积进行求和,则有
此即.
式(2.21)
解析
按照我们上述对式(2.20)的解析思路,可以看作是所有绿色线段和蓝色线段与
轴围成的面积之和,但从式(2.21)中很难一眼看出其面积的具体计算方式,因此我们进行恒等变形如下:
在变动分类阈值的过程当中,如果有新增真正例,那么图2-1就会相应地增加一条绿色线段或蓝色线段,所以上式中的可以看作是在累加所有绿色和蓝色线段,相应地,
后面的内容便是在求绿色线段或者蓝色线段与
轴围成的面积,即:
与式(2.20)中的求解思路相同,不论是绿色线段还是蓝色线段,其与轴围成的图形面积都可以用梯形公式来进行计算,所以上式表示的依旧是一个梯形的面积公式.其中
即梯形的“高”,中括号内便是“上底+下底”,下面我们来分别推导一下“上底”(较短的底)和“下底”(较长的底).
由于在绘制曲线的过程中,每新增一个假正例时
坐标也就新增一个步长,所以对于“上底”,也就是绿色或者蓝色线段的下端点到
轴的距离,长度就等于
乘以预测值大于
的假正例的个数,即
而对于“下底”,长度就等于乘以预测值大于等于
的假正例的个数,即
式(2.27)
解析
截至2018年12月“西瓜书”第1版第30次印刷,式(2.27)应当勘误为
具体推导过程如下:由“西瓜书”中的上下文可知,对进行假设检验,等价于本章附注中所述的对
进行假设检验,所以在“西瓜书”中求解最大错误率
等价于在附注中求解事件最大发生频率
. 由附注可知
所以
将上式中的等价替换为
可得
式(2.41)
①
②
③
④
⑤
⑥
⑦
①②:减一个
再加一个
,属于简单的恒等变形
④⑤:同①
②一样,减一个
再加一个
,属于简单的恒等变形
⑤⑥:同②
③一样, 将最后一项利用期望的运算性质进行展开
解析
②③:首先将中括号内的式子展开,有
然后根据期望的运算性质可将上式化为
③④:再次利用期望的运算性质将第3步得到的式子的最后一项展开,有
首先计算展开后得到的第1项,有
由于是常量,所以由期望的运算性质:
(其中
均为常量)可得
由式(2.37)可知,所以
接着计算展开后得到的第二项
由于噪声和无关,所以
和
是两个相互独立的随机变量. 根据期望的运算性质
(其中
和
为相互独立的随机变量)可得
所以
⑥⑦:因为
和
均为常量,根据期望的运算性质,有⑥中的第2项
同理有⑥中的最后一项
由于此时假定噪声的期望为零,即,所以