Knime 简明教程

KNIME - Exploring Workflow

如果你查看工作流中的节点,你会发现它包含以下内容:

  1. 文件读取器,

  2. 颜色管理器

  3. 分区

  4. 决策树学习器

  5. 决策树预测器

  6. 得分

  7. 交互式表

  8. 散点图

  9. 统计信息

这些很容易在 Outline 视图中看到,如下所示:

outline

每个节点在工作流中提供特定功能。现在,我们将研究如何配置这些节点以满足所需功能。请注意,我们将仅讨论与我们在当前探索工作流上下文中相关的节点。

File Reader

文件读取器节点在下图中显示:

file reader

窗口顶部有一些由工作流创建者提供的说明。它告诉这个节点读取成人数据集。文件名称为 adult.csv ,从节点符号下的说明中可以看到。 File Reader 有两个输出 - 一个转到 Color Manager 节点,另一个转到 Statistics 节点。

如果你右键单击 File Manager ,将弹出一个菜单,如下所示:

file manager

Configure 菜单选项允许节点配置。 Execute 菜单运行节点。请注意,如果节点已经运行并且处于绿色状态,则此菜单将被禁用。此外,还请注意 Edit Note Description 菜单选项的存在。这允许你为你的节点编写说明。

现在,选择 Configure 菜单选项,它将显示一个包含 adult.csv 文件数据并如图所示的屏幕截图 −

adult csv file

当执行此节点时,数据将加载到内存中。整个数据加载程序代码都对用户隐藏。你现在可以欣赏这些节点的有用性——无需编码。

我们的下一个节点是 Color Manager

Color Manager

选择 Color Manager 节点,并通过右键单击进入其配置。将显示颜色设置对话框。从下拉列表中选择 income 列。

你的屏幕将类似于下面 −

color manager

请注意是否存在两个约束。如果收入低于 50K,则数据点将获得绿色,如果收入较高,则将其变为红色。当我们在本章后面查看散点图时,你将看到数据点映射。

Partitioning

在机器学习中,我们通常将所有可用数据分成两部分。较大的一部分用于训练模型,而较小的一部分用于测试。有不同的策略用于对数据进行分区。

要定义所需的划分,请右键单击 Partitioning 节点并选择 Configure 选项。你将看到以下屏幕 −

partitioning

在这种情况下,系统建模器使用了 Relative (%) 模式,并且数据以 80:20 的比例进行分割。在进行分割时,将随机拾取数据点。这确保你的测试数据不会有偏差。对于线性采样,剩余的 20% 用于测试的数据可能无法正确表示训练数据,因为它在收集过程中可能完全偏向。

如果你确定在数据收集期间确保了随机性,那么你可以选择线性采样。一旦数据准备好用于训练模型,请输入下一个节点,即 Decision Tree Learner

Decision Tree Learner

顾名思义, Decision Tree Learner 节点使用训练数据并构建模型。查看此节点的配置设置,如下图所示 −

decision tree learner

正如你所看到的, Classincome 。因此,树将基于收入列构建,而这是我们在此模型中要达到的目标。我们需要将收入高于或低于 50K 的人分离。

此节点成功运行后,你的模型将准备好进行测试。

Decision Tree Predictor

决策树预测器节点将开发的模型应用于测试数据集并附加模型预测。

tree predictor

预测器的输出馈送到两个不同的节点 - ScorerScatter Plot 。接下来,我们将检查预测的输出。

Scorer

此节点生成 confusion matrix 。要查看它,请右键单击该节点。你将看到以下弹出菜单 −

scorer

单击 View: Confusion Matrix 菜单选项,矩阵将如图所示在单独的窗口中弹出 −

confusion matrix

它表示我们开发的模型的准确性为 83.71%。如果你对此不满意,你可以尝试使用其他参数进行模型构建,特别是,你可能想要重新查看并清理你的数据。

Scatter Plot

要查看数据分布的散点图,请右键单击 Scatter Plot 节点并选择菜单选项 Interactive View: Scatter Plot 。你将看到以下绘图 −

scatter plot

该图给出了基于 50K 阈值的两种不同颜色的点(红色和蓝色)的不同收入人群的分布。这些是我们 Color Manager 节点中设置的颜色。分布相对于在 x 轴上绘制的年龄。你可以通过更改节点的配置为 x 轴选择不同的特征。

配置对话框显示在这里,我们在其中选择 marital-status 作为 x 轴的特征。

marital status

这完成了我们对 KNIME 提供的预定义模型的讨论。我们建议你在模型中学习其他两个节点(统计和交互式表格)。

现在让我们继续本教程中最重要的部分——创建你自己的模型。