Statistics 简明教程

Statistics - Data Patterns

当数据以图表进行绘制时,数据模式非常有用。数据模式通常用中心、离散度、形状和其它非常规属性之类的特征来进行描述。其它一些特殊的描述标签有对称的、钟形、歪斜的等等。

Center

分布的中心在图表中位于分布的中位数。这样的图表显示几乎一半的观测值在任一侧。每个柱形的高度指示观测值的频率。

center display

Spread

分布的离散度指的是数据的可变性。如果观测值集合涵盖了广泛范围,则离散度较大。如果观测值集中于单个值附近,则离散度较小。

spread display

Shape

可以使用以下特征来描述分布的形状。

  1. Symmetry - 在对称分布中,图表可以从中心处进行分割,使得每一半是另一半的镜像。

  2. Number of peaks. - 具有一个或多个峰值的分布。具有一个明显峰值的分布称为单峰分布,具有两个明显峰值的分布称为双峰分布。中心处的单峰对称分布称为钟形分布。

  3. Skewness - 某些分布在图表的一侧可能具有多于另一侧的多个观测值。观测值数量在较低的值附近较少的分布被称为右偏分布;而观测值数量在较低的值附近较少的分布被称为左偏分布。

  4. Uniform - 当观测值集合没有峰值且数据在分布范围内均等分布时,则该分布称为均匀分布。

Unusual Features

数据模式的常见非常规特征是间隙和异常值。

  1. Gaps - 间隙指向没有任何观测值的分布区域。在下图中有一个间隙,因为在分布的中间没有观测值。

  2. Outliers - 分布可能以极值来表征,该极值与其它观测数据集合差异很大。这些极值被称为异常值。下图展示了一个具有异常值的分布。