Knime 简明教程

KNIME - Exploring Workflow

如果你查看工作流中的节点，你会发现它包含以下内容：

这些很容易在 Outline 视图中看到，如下所示：

每个节点在工作流中提供特定功能。现在，我们将研究如何配置这些节点以满足所需功能。请注意，我们将仅讨论与我们在当前探索工作流上下文中相关的节点。

文件读取器节点在下图中显示：

窗口顶部有一些由工作流创建者提供的说明。它告诉这个节点读取成人数据集。文件名称为 adult.csv ，从节点符号下的说明中可以看到。 File Reader 有两个输出 - 一个转到 Color Manager 节点，另一个转到 Statistics 节点。

如果你右键单击 File Manager ，将弹出一个菜单，如下所示：

Configure 菜单选项允许节点配置。 Execute 菜单运行节点。请注意，如果节点已经运行并且处于绿色状态，则此菜单将被禁用。此外，还请注意 Edit Note Description 菜单选项的存在。这允许你为你的节点编写说明。

现在，选择 Configure 菜单选项，它将显示一个包含 adult.csv 文件数据并如图所示的屏幕截图 −

当执行此节点时，数据将加载到内存中。整个数据加载程序代码都对用户隐藏。你现在可以欣赏这些节点的有用性——无需编码。

我们的下一个节点是 Color Manager 。

选择 Color Manager 节点，并通过右键单击进入其配置。将显示颜色设置对话框。从下拉列表中选择 income 列。

你的屏幕将类似于下面 −

请注意是否存在两个约束。如果收入低于 50K，则数据点将获得绿色，如果收入较高，则将其变为红色。当我们在本章后面查看散点图时，你将看到数据点映射。

在机器学习中，我们通常将所有可用数据分成两部分。较大的一部分用于训练模型，而较小的一部分用于测试。有不同的策略用于对数据进行分区。

要定义所需的划分，请右键单击 Partitioning 节点并选择 Configure 选项。你将看到以下屏幕 −

在这种情况下，系统建模器使用了 Relative (%) 模式，并且数据以 80:20 的比例进行分割。在进行分割时，将随机拾取数据点。这确保你的测试数据不会有偏差。对于线性采样，剩余的 20% 用于测试的数据可能无法正确表示训练数据，因为它在收集过程中可能完全偏向。

如果你确定在数据收集期间确保了随机性，那么你可以选择线性采样。一旦数据准备好用于训练模型，请输入下一个节点，即 Decision Tree Learner 。

顾名思义， Decision Tree Learner 节点使用训练数据并构建模型。查看此节点的配置设置，如下图所示 −

正如你所看到的， Class 是 income 。因此，树将基于收入列构建，而这是我们在此模型中要达到的目标。我们需要将收入高于或低于 50K 的人分离。

此节点成功运行后，你的模型将准备好进行测试。

决策树预测器节点将开发的模型应用于测试数据集并附加模型预测。

预测器的输出馈送到两个不同的节点 - Scorer 和 Scatter Plot 。接下来，我们将检查预测的输出。

此节点生成 confusion matrix 。要查看它，请右键单击该节点。你将看到以下弹出菜单 −

单击 View: Confusion Matrix 菜单选项，矩阵将如图所示在单独的窗口中弹出 −

它表示我们开发的模型的准确性为 83.71%。如果你对此不满意，你可以尝试使用其他参数进行模型构建，特别是，你可能想要重新查看并清理你的数据。

要查看数据分布的散点图，请右键单击 Scatter Plot 节点并选择菜单选项 Interactive View: Scatter Plot 。你将看到以下绘图 −

该图给出了基于 50K 阈值的两种不同颜色的点（红色和蓝色）的不同收入人群的分布。这些是我们 Color Manager 节点中设置的颜色。分布相对于在 x 轴上绘制的年龄。你可以通过更改节点的配置为 x 轴选择不同的特征。

配置对话框显示在这里，我们在其中选择 marital-status 作为 x 轴的特征。

这完成了我们对 KNIME 提供的预定义模型的讨论。我们建议你在模型中学习其他两个节点（统计和交互式表格）。

现在让我们继续本教程中最重要的部分——创建你自己的模型。