Statistics 简明教程

Statistics - Stratified sampling

该检查策略用作环境的一部分,其中可以毫不费力地将总体划分为群体或阶层,这些群体或阶层彼此明显不同,但群体中的组成部分在某些属性方面是同类的,例如,学校的学生可以根据性别、开设课程、年龄等基础进行阶层划分。在这种情况下,总体最初被划分为阶层,然后从每个阶层中获取随机样本。分层抽样有两种类型:按比例分层抽样和按比例分层抽样。

  1. Proportionate Stratified Sampling - 在这种情况下,从每个阶层中选取的单元数与该阶层在总体中的份额成正比,例如,一所大学中总共有 2500 名学生,其中 1500 名学生就读于研究生课程,1000 名学生就读于研究生课程。如果要使用按比例分层抽样选择 100 个样本,那么样本中本科生的数量将是 60,研究生的数量将是 40。因此,这两个阶层在样本中的代表比例与其在总体中的代表比例相同。当抽样的目的是估计某个特性的总体值并且各个阶层中的差异没有差异时,这种方法最合适。

  2. Disproportionate Stratified Sampling - 当研究目的是比较阶层之间的差异时,则有必要从所有阶层中提取数量相等的单位,无论其在总体中所占的份额如何。有时,某些阶层比其他阶层在某些特征方面具有更大的可变性,在这种情况下,可以从可变性更大的阶层中提取更多数量的单位。这两种情况下抽取的样本都是不成比例的分层样本。可以使用以下公式优化阶层大小和阶层可变性的差异来确定不同阶层的样本大小:公式 ${n_i = \frac{n.n_i\sigma_i}{n_1\sigma_1+n_2\sigma_2+…​n_k\sigma_k}\ for\ i = 1,2 …​k}$其中 - ${n_i}$ = i 阶层的样本量。${n}$ = 阶层的规模。${\sigma_1}$ = i 阶层的标准差。 除此之外,还可能出现以下情况:在一个阶层中收集样本的成本可能高于另一个阶层。最优的不成比例抽样应以以下方式进行:${\frac{n_1}{n_1\sigma_1\sqrt{c_1}} = \frac{n_2}{n_2\sigma_1\sqrt{c_2}} = …​ = \frac{n_k}{n_k\sigma_k\sqrt{c_k}}}$其中 ${c_1, c_2, …​ ,c_k}$参考 k 阶层中的抽样成本。可以使用以下公式确定不同阶层的样本量:${n_i = \frac{\frac{n.n_i\sigma_i}{\sqrt{c_i}}}{\frac{n_1\sigma_1}{\sqrt{c_i}}\frac{n_2\sigma_2}{\sqrt{c_2}}…​\frac{n_k\sigma_k}{\sqrt{c_k}}}\ for\ i = 1,2 …​k}$

Example

Problem Statement:

一个组织有 5000 名员工,分为三个级别。

  1. 阶层 A:50 名高管,标准差 = 9

  2. 阶层 B:1250 名非体力劳动者,标准差 = 4

  3. 阶层 C:3700 名体力劳动者,标准差 = 1

如何以最佳分配方式以不成比例的基础抽取 300 名员工的样本?

Solution:

使用针对最佳分配的不成比例抽样公式。