Weka 简明教程

Weka - Feature Selection

当一个数据库包含大量属性时,将有几个属性在您当前正在寻求的分析中并不重要。因此,从数据集中删除不需要的属性成为开发良好机器学习模型的一项重要任务。

您可能会从视觉上检查整个数据集并决定不相关的属性。对于包含大量属性的数据库,这可能是一项巨大的任务,例如您在较早的课程中学到的超市案例。幸运的是,WEKA 提供了一个用于特征选择的自动化工具。

本章对此功能进行了演示,该功能驻留在包含大量属性的数据库中。

Loading Data

在 WEKA Explorer 的 Preprocess 标签中,选择 labor.arff 文件以加载到系统中。加载数据后,您将看到以下屏幕 −

loading data

请注意,有 17 个属性。我们的任务是通过消除与我们的分析不相关的某些属性来创建一个缩减的数据集。

Features Extraction

单击 选择属性 选项卡。您将看到以下画面 -

select attributes

Attribute EvaluatorSearch Method 下,您将找到几个选项。我们只使用这里的默认值。在 Attribute Selection Mode 中,使用完整训练集选项。

单击开始按钮以处理数据集。您将看到以下输出 −

start dataset

在结果窗口的底部,您将获得 Selected 属性列表。要获取可视化表示,请右键单击 Result 列表中的结果。

Explorer 在以下屏幕截图中显示了输出 −

screenshot output

单击任何正方形都会为您提供供进一步分析的数据图。一个典型的数据图如下所示 −

data plot

这与我们在前面章节中看到的内容类似。使用可用的不同选项来分析结果。

What’s Next?

目前为止,您已经见识到了 WEKA 在快速开发机器学习模型方面的强大功能。我们使用的是一个名为 Explorer 的图形工具来开发这些模型。WEKA 还提供了一个命令行界面,该界面提供了比 explorer 中提供的更强大的功能。

单击 G*UI Chooser* 应用程序中的 Simple CLI 按钮会启动此命令行界面,如下面的屏幕截图所示 −

gui chooser

在底部的输入框中键入命令。您将能够使用该资源管理器所做的一切和其他更多内容。有关详细信息,请参阅 WEKA documentation ([role="bare"] [role="bare"]https://www.cs.waikato.ac.nz/ml/weka/documentation.html )。

最后,WEKA 是使用 Java 开发的并提供对其 API 的接口。因此,如果您是 Java 开发人员并热衷于在自己的 Java 项目中包含 WEKA ML 实施,则可以轻松做到。

Conclusion

WEKA 是开发机器学习模型的强大工具。它提供了几种最广泛使用的 ML 算法的实现。在将这些算法应用于数据集之前,它还允许您预处理数据。支持的算法类型在分类、集群、关联和选择属性下进行分类。可以通过美观且强大的可视化表示来可视化处理的各个阶段的结果。这使得数据科学家可以更轻松地快速在其数据集上应用各种机器学习技术,比较结果并为最终用途创建最佳模型。