Machine Learning 简明教程

Machine Learning - Percentiles

百分位数是机器学习中用来描述数据集分布的统计概念。百分位数是一种衡量标准,它表示一组观测中给定百分比观测值下降到的数值以下。

例如,第 25 个百分位数(也称为第一四分位数)是数据集中的 25% 的观测值下降到的数值以下,而第 75 个百分位数(也称为第三四分位数)是数据集中的 75% 的观测值下降到的数值以下。

百分位数可以用来概括数据集的分布并识别异常值。在机器学习中,百分位数通常用于数据预处理和探索性数据分析,以深入了解数据。

Python 提供了几个用于计算百分位数的库,包括 NumPy 和 Pandas。

Calculating Percentiles using NumPy

以下是如何使用 NumPy 计算百分位数的示例 −

Example

import numpy as np

data = np.array([1, 2, 3, 4, 5])
p25 = np.percentile(data, 25)
p75 = np.percentile(data, 75)
print('25th percentile:', p25)
print('75th percentile:', p75)

在此示例中,我们使用 NumPy 创建了一个样本数据集,然后使用 np.percentile() 函数计算了第 25 个和第 75 个百分位数。

输出显示了数据集的百分位数的值。

25th percentile: 2.0
75th percentile: 4.0

Calculating Percentiles using Pandas

以下是如何使用 Pandas 计算百分位的示例 −

Example

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
p25 = data.quantile(0.25)
p75 = data.quantile(0.75)

print('25th percentile:', p25)
print('75th percentile:', p75)

在这个示例中,我们将创建一个 Pandas 系列对象,然后使用系列对象的 quantile() 方法计算第 25 和第 75 个百分位。

输出显示了数据集的百分位数的值。

25th percentile: 2.0
75th percentile: 4.0