Machine Learning 简明教程

Machine Learning - Statistics

统计学是机器学习中至关重要的工具,因为它有助于我们理解数据中的底层模式。它为我们提供了描述、总结和分析数据的方法。让我们来看看机器学习的一些统计基础知识。

Descriptive Statistics

描述性统计是统计学的一个分支,用于对数据进行汇总和分析。它包括平均值、中值、众数、方差和标准差等指标。这些指标有助于我们了解数据的集中趋势、可变性和分布。

在机器学习中,描述性统计可用于汇总数据、识别异常值和检测模式。例如,我们可以使用平均值和标准差来描述数据集的分布。

在 Python 中,我们可以使用 NumPy 和 Pandas 等库计算描述性统计。以下是一个示例 −

Example

import numpy as np
import pandas as pd

data = np.array([1, 2, 3, 4, 5])
df = pd.DataFrame(data, columns=["Values"])
print(df.describe())

这将输出数据集的摘要,包括数量、平均值、标准差、最小值和最大值,如下所示 −

         Values
count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000

Inferential Statistics

推断统计是统计学的一个分支,用于基于数据样本对总体进行预测和推断。它涉及使用假设检验、置信区间和回归分析对数据进行推断。

在机器学习中,可以利用推断统计根据现有数据对新数据进行预测。例如,我们可以使用回归分析根据房屋的特征(例如卧室和浴室的数量)预测房屋的价格。

在 Python 中,我们可以使用 Scikit-Learn 和 StatsModels 等库执行推断统计。以下是一个示例 −

Example

import statsmodels.api as sm
import numpy as np

X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

X = sm.add_constant(X)
model = sm.OLS(y, X).fit()

print(model.summary())

这将输出回归模型的摘要,包括系数、标准误差、t 统计量和 p 值,如下所示 −

inferential statistics

在下一章中,我们将详细讨论机器学习中常用的各种描述性和推论性统计度量,以及 Python 实现示例。