查准率 Precision

查准率是用于信息检索和统计分类的一个度量值,指提取的正确样本相对于提取数量的比值。相近的概念有召回率,其是指提取的样本数与总样本数量的比值。

两个概念的区别(混淆矩阵的准确性)

二分类的四种结果又被称为混淆矩阵,如下图所示:

真实类别预测为正预测为反
正例TP(真正例)FP(假反例)
反例FN(假正例)TN(真反例)

对于上述结果相关的几个度量:

查准率 P = TP / ( TP + FP ) 预测为 1 的样本里实际为 1 的概率

召回率 R = TP / ( TP + FN ) 实际为 1 的样本里预测为 1 的概率

两者取值在 0 和 1 之间的情况下,数值约接近 1,查全率或查准率就越高。

两个概念的联系

查准率和召回率常被用于判断机器学习的性能指标,主要有 P – R 曲线和 F1 度量两种:

P – R 曲线:以查准率和召回率分别为 X 轴和 Y 轴得到的曲线;

F1 度量:查准率和召回率的调和平均值,定义为 1 / F 1 = 1 / 2 * (1 / P + 1 / R) 。