H2o 简明教程
H2O - AutoML
要使用 AutoML,请启动一个新的 Jupyter 笔记本,并遵循如下步骤。
Preparing Dataset
我们需要决定特征和预测列。我们使用前例中相同的特征和预测列。使用以下两个语句设定特征和输出列:
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
以 80:20 的比例将数据分为训练集和测试集:
train, test = data.split_frame(ratios=[0.8])
Applying AutoML
现在,我们已准备就绪地在我们的数据集上应用 AutoML 了。AutoML 将根据我们设定的固定时间运行,并为我们提供优化过的模型。我们使用以下语句设置 AutoML:
aml = H2OAutoML(max_models = 30, max_runtime_secs=300, seed = 1)
第一个参数指定了我们要评估和比较的模型数。
第二个参数指定了算法运行的时间。
我们现在在 AutoML 对象上调用 train 方法,如这里所示:
aml.train(x = features, y = output, training_frame = train)
我们指定 x 为之前创建的特征数组,指定 y 为指示预测值 的输出变量,并指定数据帧为 train 数据集。
运行代码,您需要等待 5 分钟(我们将 max_runtime_secs 设置为 300),直到获得以下输出−
Printing the Leaderboard
当 AutoML 处理完成后,它会创建排行榜,对评估过的 30 个算法进行分级。若要查看排行榜前 10 条记录,请使用以下代码 −
lb = aml.leaderboard
lb.head()
执行时,上述代码将生成以下输出 −
显然,DeepLearning 算法获得了最高分。
Predicting on Test Data
现在,您对模型进行了排名,可以在测试数据上查看排名前列模型的性能。要执行此操作,请运行以下代码语句 −
preds = aml.predict(test)
处理将持续一段时间,完成后您将看到以下输出。