表征分类精度的指标有很多,其中最常用的是混淆矩阵、总体分类精度(OA)以及Kappa系数。
混淆矩阵
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,对于$N$类数据,可以用$N$行$N$列的矩阵来表示。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目,每一列中的数值表示预测数据在真实数据中的分布;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目,每一行的数值表示真实数据在预测数据中的分布。
混淆矩阵能够很清楚的看到每个种类正确分类的个数以及被错分的类别和个数。但是,混淆矩阵并不能一眼就看出类别分类精度的好坏,为此从混淆矩阵衍生出来各种分类精度指标,其中总体分类精度Overall Accuracy(OA)和卡帕系数(Kappa)应用最为广泛。
OA
总体分类精度等于被正确分类的样本数总和除以总的样本数。被正确分类的样本数目沿着混淆矩阵的对角线分布,总样本数等于所有真实参考源的样本总数。
Kappa系数
Kappa系数是能够计算整体一致性和分类一致性的参考指标。它的计算公式如下:
式中,$r$为混淆矩阵的行数;$N$表示所有的样本总数;$X_{ii}$为混淆矩阵第$i$个对角线上的数量;$X_{i+}$为第$i$行总的观测数;$X_{+i}$为第$i$列总的观测数量。
经过适当的变换可以得到下面式子:
其中,$p_0 = \frac {\sum\nolimits_{i = 1}^r X_{ii} } {N}$,$p_e = \frac{\sum\nolimits_{i = 1}^r X_{i+} \times X_{+ i} } {N^2}$。$p_o$被称为观测精确性或一致性单元的比例,在分类任务中反映的是分类正确的样本比例;$p_e$被称为偶然性一致或期望的偶然一致的单元的比例,对于分类则表示偶然性因素导致的错误分类的比例。
Kappa计算结果在[-1,1]
之间,但通常Kappa是落在[0,1]
之间的,可分为五组来表示不同级别的一致性:
0.0~0.20
极低的一致性(slight)0.21~0.40
一般的一致性(fair)0.41~0.60
中等的一致性(moderate)0.61~0.80
高度的一致性(substantial)0.81~1
几乎完全一致(almost perfect)
疑惑
如何理解Kappa系数