Statistics 简明教程

Statistics - Kolmogorov Smirnov Test

这种方法用于需要对观测样本分布和理论分布进行比较的情况。

K-S One Sample Test

此检验可用作拟合优度检验,且当样本量较小时很理想。它会针对指定分布的变量比较累积分布函数。零假设认为观察到的分布与理论分布之间不存在差异,检验统计量“D”的值计算如下:

Formula

其中——

  1. ${F_o(X)}$ = n 个观测值的随机样本的观察到的累积频率分布。

  2. 并且 ${F_o(X) = \frac{k}{n}}$ = (≤ X 的观察值数量)/(观察值的总数)。

  3. ${F_r(X)}$ = 理论频率分布。

${D}$ 的临界值可从 K-S 表中单样本检验的值中找到。

Acceptance Criteria: 如果计算值小于临界值,则接受零假设。

Rejection Criteria: 如果计算值大于表值,则拒绝零假设。

Example

Problem Statement:

在一项针对某所大学各个专业的 60 位学生进行的研究中,从每个专业抽取数量相等的学生,对他们进行了采访,并记录了他们加入大学戏剧俱乐部的意愿。

B.Sc.

B.A.

B.Com

M.A.

M.Com

No. in each class

5

9

11

16

19

预期每个班级的 12 位学生会加入戏剧俱乐部。使用 K-S 检验来找出学生班级在加入戏剧俱乐部的意愿方面是否存在差异。

Solution:

${H_o}$:不同专业学生在加入戏剧俱乐部的意愿方面不存在差异。

我们计算观察分布和理论分布的累积频率。

Streams

有兴趣加入的学生人数

${F_O(X)}$

${F_T(X)}$

${

F_O(X)-F_T(X)

}$

Observed (O)

Theoretical (T)

B.Sc.

5

12

5/60

12/60

7/60

B.A.

9

12

14/60

24/60

10/60

B.COM.

11

12

25/60

36/60

11/60

M.A.

16

12

41/60

48/60

7/60

M.COM.

19

12

60/40

60/60

60/60

Total

n=60

检验统计量 ${|D|}$ 计算如下:

在 5% 显著性水平下的 D 表值为

由于计算值大于临界值,因此我们拒绝零假设,并得出结论:不同专业学生在加入戏剧俱乐部的意愿方面存在差异。

K-S Two Sample Test

当存在两个独立样本而非一个样本时,可以使用 K-S 二样本检验来检验两个累积分布之间的一致性。零假设指出两个分布之间不存在差异。D 统计量的计算方式与 K-S 单样本检验相同。

Formula

其中——

  1. ${n_1}$ = 第一样本的观察值。

  2. ${n_2}$ = 第二样本的观察值。

可以看出,当累积分布显示出较大的最大偏差 ${|D|}$ 时,表示两个样本分布之间存在差异。

如果样本的${n_1 = n_2}$并且⇐40,则使用两样本案例的K-S表格。如果${n_1}$和/或${n_2}$>40,则应该使用两样本检验的大样本的K-S表格。如果计算值小于表格值,则接受原假设,反之亦然。

因此,使用任何这些非参数检验可以帮助研究者在目标人群的特征未知或没有对它们做出任何假设时测试其结果的显著性。