Weka 简明教程

Weka - File Formats

WEKA 支持大量的数据文件格式。以下是完整列表 −

  1. arff

  2. arff.gz

  3. bsi

  4. csv

  5. dat

  6. data

  7. json

  8. json.gz

  9. libsvm

  10. m

  11. names

  12. xrff

  13. xrff.gz

它支持的文件类型列在屏幕底部的下拉列表框中。这在下面给出的屏幕截图中显示。

drop down list

您会注意到它支持多种格式,包括 CSV 和 JSON。默认文件类型是 Arff。

Arff Format

Arff 文件包含两个部分——头和数据。

  1. 头描述了属性类型。

  2. 数据部分包含用逗号分隔的数据列表。

作为 Arff 格式的示例,下面显示了从 WEKA 样本数据库加载的 Weather 数据文件 −

sample databases

从屏幕截图中,您可以推断以下几点 −

  1. @relation 标记定义了数据库的名称。

  2. @attribute 标记定义属性。

  3. @data 标记开始每一行包含逗号分隔字段的数据行列表。

  4. 属性可以取名义值,如这里所示的外观 −

@attribute outlook (sunny, overcast, rainy)
  1. 属性可以取真值,如此例中所示 −

@attribute temperature real
  1. 您还可以设置目标或类变量,如这里所示的 play −

@attribute play (yes, no)
  1. 目标假设两个名义值,是或否。

Other Formats

Explorer 可加载任何早期提到的格式中的数据。由于 arff 是 WEKA 中的首选格式,你可以从任何格式中加载数据,并将其保存到 arff 格式中以供以后使用。在预处理数据后,只需将其保存为 arff 格式以供进一步分析。

现在你已了解如何将数据加载到 WEKA,在下个章节中,你将学习如何预处理数据。