Big Data Analytics 简明教程
Big Data Analytics - Problem Definition
通过本教程,我们将开发一个项目。本教程中每一后续章节都会在迷你项目部分处理大项目的一部分。这一部分被认为是一个应用教程部分,它将提供接触现实世界问题的经验。在这种情况下,我们将从该项目的定义问题开始。
Project Description
该项目的目的是开发一个机器学习模型,以预测人们使用其简历(CV)文本作为输入的小时工资。
使用上面定义的框架,定义问题很容易。我们可以将 X = {x1, x2, …, xn} 定义为用户的 CV,其中每个特征可能以最简单的方式出现,即此单词出现的次数。然后响应是有实值的,我们正试图预测个人每小时的工资,单位为美元。
这两个考虑足以得出结论,即可以通过监督回归算法解决所提出的问题。
Problem Definition
Problem Definition 可能是在大数据分析管道中最复杂、最容易被忽视的阶段之一。为了定义数据产品要解决的问题,经验是强制性的。大多数数据科学家准学者在这个阶段几乎没有或完全没有经验。
大多数大数据问题可以按以下方式分类−
-
Supervised classification
-
Supervised regression
-
Unsupervised learning
-
Learning to rank
现在让我们进一步了解这四个概念。
Supervised Classification
给定特征矩阵 X = {x1, x2, …, xn},我们开发模型 M 来预测定义为 y = {c1, c2, …, cn} 的不同类。例如:给定保险公司客户的交易数据,可以开发一个模型来预测客户是否会流失。后者是一个二元分类问题,其中有两个类或目标变量:流失和不流失。
其他问题涉及预测多个类,我们可能对识别数字感兴趣,因此响应向量将定义为:y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9},最先进的模型将卷积神经网络和特征矩阵将定义为图像像素。
Supervised Regression
在这种情况下,问题定义与前面的例子非常相似;区别在于响应。在回归问题中,响应 y ∈ ℜ,这意味着该响应是有实值的。例如,我们可以开发一个模型来预测给定简历语料库的情况下个人的每小时工资。