Statistics 简明教程
Statistics - Outlier Function
概率分布函数中的异常值是指比数据集长度的1.5倍还多的数字,远离下四分位数或上四分位数。具体来说,如果一个数字小于${Q_1 - 1.5 \times IQR}$或大于${Q_3 + 1.5 \times IQR}$,则它是一个异常值。
异常值由以下概率函数定义和给出:
Formula
其中——
-
${Q_1}$ = First Quartile
-
${Q_2}$ = Third Quartile
-
${IQR}$= 四分位距
Example
Problem Statement:
考虑一个数据集,该数据集表示8个不同学生的周期性任务计数。任务计数信息集为11、13、15、3、16、25、12和14。从学生的周期性任务计数中找出异常数据。
Solution:
给定数据集为:
11 |
13 |
15 |
3 |
16 |
25 |
12 |
14 |
按升序排列:
3 |
11 |
12 |
13 |
14 |
15 |
16 |
25 |
第一四分位数的值(${Q_1}$)
第三四分位数 ()${Q_3}$
较低离群范围 (L)
较大离群范围 (L)
在给定的信息中,5.5 和 21.5 比给定数据集中的其他值较大,即除了 3 和 25,因为 3 大于 5.5,而 25 小于 21.5。
通过这种方式,我们将 3 和 25 用作离群值。