AUC计算时的常见问题

tamoadmin 球队新闻 2024-04-27 22 0

在计算AUC时,可能会遇到以下几个常见问题

1.数据不平衡问题

当数据集中某一类的样本数量远超于其他样本的时候,模型自然会有一种倾向使得分类结果偏向于该类样本,这是概率统计中先验的性质。在这种情况下,AUC可能不再是有效的评估指标。为了解决这个问题,可以通过采样的方式,手动的平衡不同类别的样本的数量,主要的手法有欠采样和重采样。

2.AUC值的物理意义

AUC的物理意义为:“任意抽取一个正样本和一个负样本,正样本的预测score大于负样本的预测score”的概率值。具体的计算公式为:M是正样本的个数,N是副样本的个数,对所有的预测样本的score进行从小到大的排序,然后从1进行标号。原始样本模型打分(0.8,

0.5,

0.6,

0.3,

0.4),得到auc

=

(1

*

2

+

0.5

*

1

+

0

AUC计算时的常见问题

*

2

+

0

AUC计算时的常见问题

*

1

+

0.5

*

1)

/

(2

*

5)

=

0.5。

3.AUC计算的等价性

AUC的计算方法有很多种,其中包括基于ROC曲线下的面积的计算,以及基于随机抽取正负样本的概率的计算。这两种计算方法实际上是等价的。

4.AUC与Accuracy的关系

在模型训练过程中,有时候会发现Loss下降,但accuracy(或auc)不升的情况。这是因为Accuracy和AUC计算方式不同,Accuracy只关心预测正确,而不关心正确的程度,而AUC考虑了预测的正确程度。所以会出现预测正确的数量不变,但是正确的置信度越来越高了的情况。

以上就是在计算AUC时可能会遇到的一些常见问题及其解决方案。