Statistics 简明教程

Statistics - Residual analysis

残差分析用于通过定义残差并检查残差图来评估线性回归模型的适用性。

Residual

残差 ($ e $) 指观测值 ($ y $) 与预测值 ($ \hat y $) 之间的差异。每个数据点都有一个残差。

Residual Plot

残差图是残差位于纵轴、自变量位于横轴的图形。如果点随机分散在横轴周围,那么线性回归模型适合该数据;否则,选择非线性模型。

Types of Residual Plot

下面的示例展示了残差图中的一些模式。

residual plots

在第一个案例中,点随机分布。因此,更推荐使用线性回归模型。在第二个和第三个案例中,点非随机分布,提示更推荐使用非线性回归方法。

Example

Problem Statement:

检查线性回归模型是否适用于以下数据。

$ x $

60

70

80

85

95

$ y $(实际值)

70

65

70

95

85

$ \hat y $(预测值)

65.411

71.849

78.288

81.507

87.945

Solution:

Step 1: 为每个数据点计算残差。

$ x $

60

70

80

85

95

$ y $(实际值)

70

65

70

95

85

$ \hat y $(预测值)

65.411

71.849

78.288

81.507

87.945

$ e $ (Residual)

4.589

-6.849

-8.288

13.493

-2.945

Step 2: - 绘制残差图。

residual plot

Step 3: - 检查残差的随机性。

此处残差图显示出一个随机模式 -第一个残差为正,接下来的两个为负,第四个为正,最后一个残差为负。由于模式相当随机,这表明线性回归模型适用于以上数据。