Scikit Learn 简明教程
Scikit Learn - Data Representation
众所周知,机器学习即将从数据创建模型。为了这个目的,计算机必须首先理解数据。接下来,我们将讨论各种方法,以便计算机可以理解如何表示数据。
Data as table
在 Scikit-learn 中表示数据的最佳方式是表格形式。表格表示一个 2-D 数据网格,其中行表示数据集的各个元素,而列表示与这些各个元素相关的数量。
Data as Feature Matrix
特征矩阵可以定义为可以将信息视为二维矩阵的表格布局。它存储在名为 ` X ` 的变量中,并且假定为具有形状 [n_samples, n_features]
的二维矩阵。通常,它包含在 NumPy 数组或 Pandas DataFrame 中。正如前面所说的,样本始终表示由数据集描述的各个对象,而特征表示以定量方式描述每个样本的不同观察结果。
Data as Target array
除了特征矩阵(用 X 表示)之外,我们还有目标数组。它也称为标签。它用 y 表示。标签或目标数组通常是一维的,长度为 n_samples
。它通常包含在 NumPy ` array ` 或 Pandas ` Series ` 中。目标数组可以同时具有值,连续数值和离散值。