Knime 简明教程
KNIME - Exploring Workflow
如果你查看工作流中的节点,你会发现它包含以下内容:
-
文件读取器,
-
颜色管理器
-
分区
-
决策树学习器
-
决策树预测器
-
得分
-
交互式表
-
散点图
-
统计信息
这些很容易在 Outline 视图中看到,如下所示:
每个节点在工作流中提供特定功能。现在,我们将研究如何配置这些节点以满足所需功能。请注意,我们将仅讨论与我们在当前探索工作流上下文中相关的节点。
File Reader
文件读取器节点在下图中显示:
窗口顶部有一些由工作流创建者提供的说明。它告诉这个节点读取成人数据集。文件名称为 adult.csv ,从节点符号下的说明中可以看到。 File Reader 有两个输出 - 一个转到 Color Manager 节点,另一个转到 Statistics 节点。
如果你右键单击 File Manager ,将弹出一个菜单,如下所示:
Configure 菜单选项允许节点配置。 Execute 菜单运行节点。请注意,如果节点已经运行并且处于绿色状态,则此菜单将被禁用。此外,还请注意 Edit Note Description 菜单选项的存在。这允许你为你的节点编写说明。
现在,选择 Configure 菜单选项,它将显示一个包含 adult.csv 文件数据并如图所示的屏幕截图 −
当执行此节点时,数据将加载到内存中。整个数据加载程序代码都对用户隐藏。你现在可以欣赏这些节点的有用性——无需编码。
我们的下一个节点是 Color Manager 。
Color Manager
选择 Color Manager 节点,并通过右键单击进入其配置。将显示颜色设置对话框。从下拉列表中选择 income 列。
你的屏幕将类似于下面 −
请注意是否存在两个约束。如果收入低于 50K,则数据点将获得绿色,如果收入较高,则将其变为红色。当我们在本章后面查看散点图时,你将看到数据点映射。
Partitioning
在机器学习中,我们通常将所有可用数据分成两部分。较大的一部分用于训练模型,而较小的一部分用于测试。有不同的策略用于对数据进行分区。
要定义所需的划分,请右键单击 Partitioning 节点并选择 Configure 选项。你将看到以下屏幕 −
在这种情况下,系统建模器使用了 Relative (%) 模式,并且数据以 80:20 的比例进行分割。在进行分割时,将随机拾取数据点。这确保你的测试数据不会有偏差。对于线性采样,剩余的 20% 用于测试的数据可能无法正确表示训练数据,因为它在收集过程中可能完全偏向。
如果你确定在数据收集期间确保了随机性,那么你可以选择线性采样。一旦数据准备好用于训练模型,请输入下一个节点,即 Decision Tree Learner 。
Decision Tree Learner
顾名思义, Decision Tree Learner 节点使用训练数据并构建模型。查看此节点的配置设置,如下图所示 −
正如你所看到的, Class 是 income 。因此,树将基于收入列构建,而这是我们在此模型中要达到的目标。我们需要将收入高于或低于 50K 的人分离。
此节点成功运行后,你的模型将准备好进行测试。
Decision Tree Predictor
决策树预测器节点将开发的模型应用于测试数据集并附加模型预测。
预测器的输出馈送到两个不同的节点 - Scorer 和 Scatter Plot 。接下来,我们将检查预测的输出。
Scorer
此节点生成 confusion matrix 。要查看它,请右键单击该节点。你将看到以下弹出菜单 −
单击 View: Confusion Matrix 菜单选项,矩阵将如图所示在单独的窗口中弹出 −
它表示我们开发的模型的准确性为 83.71%。如果你对此不满意,你可以尝试使用其他参数进行模型构建,特别是,你可能想要重新查看并清理你的数据。
Scatter Plot
要查看数据分布的散点图,请右键单击 Scatter Plot 节点并选择菜单选项 Interactive View: Scatter Plot 。你将看到以下绘图 −
该图给出了基于 50K 阈值的两种不同颜色的点(红色和蓝色)的不同收入人群的分布。这些是我们 Color Manager 节点中设置的颜色。分布相对于在 x 轴上绘制的年龄。你可以通过更改节点的配置为 x 轴选择不同的特征。
配置对话框显示在这里,我们在其中选择 marital-status 作为 x 轴的特征。
这完成了我们对 KNIME 提供的预定义模型的讨论。我们建议你在模型中学习其他两个节点(统计和交互式表格)。
现在让我们继续本教程中最重要的部分——创建你自己的模型。