Statistics 简明教程

Statistics - Outlier Function

概率分布函数中的异常值是指比数据集长度的1.5倍还多的数字,远离下四分位数或上四分位数。具体来说,如果一个数字小于${Q_1 - 1.5 \times IQR}$或大于${Q_3 + 1.5 \times IQR}$,则它是一个异常值。

异常值由以下概率函数定义和给出:

Formula

其中——

  1. ${Q_1}$ = First Quartile

  2. ${Q_2}$ = Third Quartile

  3. ${IQR}$= 四分位距

Example

Problem Statement:

考虑一个数据集,该数据集表示8个不同学生的周期性任务计数。任务计数信息集为11、13、15、3、16、25、12和14。从学生的周期性任务计数中找出异常数据。

Solution:

给定数据集为:

11

13

15

3

16

25

12

14

按升序排列:

3

11

12

13

14

15

16

25

第一四分位数的值(${Q_1}$)

第三四分位数 ()${Q_3}$

较低离群范围 (L)

较大离群范围 (L)

在给定的信息中,5.5 和 21.5 比给定数据集中的其他值较大,即除了 3 和 25,因为 3 大于 5.5,而 25 小于 21.5。

通过这种方式,我们将 3 和 25 用作离群值。