基于统计的异常值检测方法

tamoadmin 球队新闻 2024-04-27 23 0

基于统计的异常值检测方法

基于统计的异常值检测方法是一种常见的数据分析技术,它通过计算数据的统计量(如平均值、中位数、标准差等)来识别与正常模式不符的数据点。以下是几种常见的基于统计的异常值检测方法:

1.箱线图法(Tukey’s

method)

箱线图法是一种基于四分位距(IQR)的方法。首先,计算出第一四分位数(Q1)和第三四分位数(Q3),然后计算IQR=Q3Q1。接着,在Q3+1.5IQR和Q11.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限和外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值,而在外限以外的为极端的异常值。

2.Zscore法

Zscore法是基于Zscore的,Zscore描述了一个给定的测量值x与平均值之间的距离,该距离是以标准差来表示的。Zscore的计算公式为:Zscore=(xμ)/δ,其中xi是一个数据点,μ是所有点xi的平均值,δ是所有点xi的标准偏差。通常我们认为Zscore的绝对值大于3的观测值被认为是异常值。

3.3σ准则

3σ准则是基于正态分布的,其原理是:数值分布在(μσ,μ+σ)中的概率为0.6827,数值分布在(μ2σ,μ+2σ)中的概率为0.9545,所以,数据在(μ3σ,μ+3σ)的概率低于0.01,我们可以称这些数据为异常值。

4.Grubbs准则

Grubbs准则是基于格拉布斯准则(Grubbs

algorithm)的,它是一种用于检测一组数据中的异常值的方法。首先,计算平均值x和标准差s,然后计算偏离值:平均值与最小值之差、最大值与平均值之差。接着,计算Gi值:Gi=(xix)/s,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。

5.基于聚类的异常值检测

除了上述方法外,还可以使用聚类的方法来检测异常值。这种方法可用于处理多变量的异常值,常用算法有Kmeans,适用于数据量比较大的情况。例如,一个样本是否是异常值需要综合多个属性进行判断,如下图中圈出来的点,仅从年龄看40岁不属于异常值,仅从收入看5000也不属于异常值,但是该点确实与其他点的行为模式不同,这时可以采用聚类的方法来检测异常值。

在实际应用中,可以根据数据的特点和分析的需求选择合适的异常值检测方法。需要注意的是,异常值检测是一个复杂的过程,可能需要结合多种方法来确保检测结果的准确性和可靠性。

基于统计的异常值检测方法