Knime 简明教程

KNIME - Exploring Workflow

如果你查看工作流中的节点,你会发现它包含以下内容:

  1. 文件读取器,

  2. 颜色管理器

  3. 分区

  4. 决策树学习器

  5. 决策树预测器

  6. 得分

  7. 交互式表

  8. 散点图

  9. 统计信息

这些很容易在 Outline 视图中看到,如下所示:

outline

每个节点在工作流中提供特定功能。现在,我们将研究如何配置这些节点以满足所需功能。请注意,我们将仅讨论与我们在当前探索工作流上下文中相关的节点。

File Reader

文件读取器节点在下图中显示:

file reader

窗口顶部有一些由工作流创建者提供的说明。它告诉这个节点读取成人数据集。文件名称为 adult.csv ,从节点符号下的说明中可以看到。 File Reader 有两个输出 - 一个转到 Color Manager 节点,另一个转到 Statistics 节点。

如果你右键单击 File Manager ,将弹出一个菜单,如下所示:

file manager

Configure 菜单选项允许节点配置。 Execute 菜单运行节点。请注意,如果节点已经运行并且处于绿色状态,则此菜单将被禁用。此外,还请注意 Edit Note Description 菜单选项的存在。这允许你为你的节点编写说明。

现在,选择 Configure 菜单选项,它将显示一个包含 adult.csv 文件数据并如图所示的屏幕截图 −

adult csv file

当执行此节点时,数据将加载到内存中。整个数据加载程序代码都对用户隐藏。你现在可以欣赏这些节点的有用性——无需编码。

我们的下一个节点是 Color Manager

Color Manager

选择 Color Manager 节点,并通过右键单击进入其配置。将显示颜色设置对话框。从下拉列表中选择 income 列。

你的屏幕将类似于下面 −

color manager

请注意是否存在两个约束。如果收入低于 50K,则数据点将获得绿色,如果收入较高,则将其变为红色。当我们在本章后面查看散点图时,你将看到数据点映射。

Partitioning

在机器学习中,我们通常将所有可用数据分成两部分。较大的一部分用于训练模型,而较小的一部分用于测试。有不同的策略用于对数据进行分区。

要定义所需的划分,请右键单击 Partitioning 节点并选择 Configure 选项。你将看到以下屏幕 −

partitioning

在这种情况下,系统建模器使用了 Relative (%) 模式,并且数据以 80:20 的比例进行分割。在进行分割时,将随机拾取数据点。这确保你的测试数据不会有偏差。对于线性采样,剩余的 20% 用于测试的数据可能无法正确表示训练数据,因为它在收集过程中可能完全偏向。

如果你确定在数据收集期间确保了随机性,那么你可以选择线性采样。一旦数据准备好用于训练模型,请输入下一个节点,即 Decision Tree Learner

Decision Tree Learner

顾名思义, Decision Tree Learner 节点使用训练数据并构建模型。查看此节点的配置设置,如下图所示 −

decision tree learner

正如你所看到的, Classincome 。因此,树将基于收入列构建,而这是我们在此模型中要达到的目标。我们需要将收入高于或低于 50K 的人分离。

此节点成功运行后,你的模型将准备好进行测试。

Decision Tree Predictor

决策树预测器节点将开发的模型应用于测试数据集并附加模型预测。

tree predictor

预测器的输出馈送到两个不同的节点 - ScorerScatter Plot 。接下来,我们将检查预测的输出。

Scorer

此节点生成 confusion matrix 。要查看它,请右键单击该节点。你将看到以下弹出菜单 −

scorer

单击 View: Confusion Matrix 菜单选项,矩阵将如图所示在单独的窗口中弹出 −

confusion matrix

它表示我们开发的模型的准确性为 83.71%。如果你对此不满意,你可以尝试使用其他参数进行模型构建,特别是,你可能想要重新查看并清理你的数据。

Scatter Plot

要查看数据分布的散点图,请右键单击 Scatter Plot 节点并选择菜单选项 Interactive View: Scatter Plot 。你将看到以下绘图 −

scatter plot

The plot gives the distribution of different income group people based on the threshold of 50K in two different colored dots - red and blue. These were the colors set in our Color Manager node. The distribution is relative to the age as plotted on the x-axis. You may select a different feature for x-axis by changing the configuration of the node.

The configuration dialog is shown here where we have selected the marital-status as a feature for x-axis.

marital status

This completes our discussion on the predefined model provided by KNIME. We suggest you to take up the other two nodes (Statistics and Interactive Table) in the model for your self-study.

Let us now move on to the most important part of the tutorial – creating your own model.