Machine Learning 简明教程

Machine Learning - Linear Regression

线性回归可以定义为分析因变量与给定的一组自变量之间的线性关系的统计模型。变量之间的线性关系意味着当一个或多个自变量的值变化(增加或减少)时,因变量的值也会相应地发生变化(增加或减少)。

在数学上,可以通过以下等式来表示这种关系 −

Y=mX+b

在此,

  1. Y 是我们尝试预测的因变量

  2. X 是我们用于进行预测的自变量

  3. m 是回归线的斜率,表示 X 对 Y 的影响。

  4. b 是一个常数,称为 Y 截距。如果 X = 0,则 Y 将等于 b。

此外,线性关系的本质可以是正面的或负面的,如下所述 −

Positive Linear Relationship

如果自变量和因变量均增加,则线性关系将称为正相关关系。可以通过以下图形来理解这一点 −

positive linear relationship

Negative Linear Relationship

如果自变量增加而因变量减小,则线性关系将称为正相关关系。可以通过以下图形来理解这一点 −

negative linear relationship

线性回归有两种类型,“简单线性回归”和“多元线性回归”,我们将在本教程的接下来两章中讨论这两种类型。

Types of Linear Regression

线性回归具有以下两种类型 −

Assumptions

以下是线性回归模型对数据集所做的一些假设 −

Multi-collinearity − 线性回归模型假设数据中几乎没有或没有多重共线性。基本上,当自变量或特征其中有依赖关系时,就会出现多重共线性。

Auto-correlation − 线性回归模型的另一项假设是数据中几乎没有或没有自相关。基本上,当残差误差之间存在依赖关系时,就会出现自相关。

Relationship between variables − 线性回归模型假设响应变量和特征变量之间的关系必须是线性的。