Machine Learning 简明教程
Machine Learning - Life Cycle
机器学习 life cycle 是构建端到端机器学习项目或 ML 解决方案的迭代过程。随着数据量的不断增长,机器学习模型的构建是一个持续的过程。机器学习专注于通过使用真实世界数据训练模型来提高系统的性能。我们必须遵循一些明确定义的步骤才能使机器学习项目取得成功。机器学习生命周期为我们提供了这些明确定义的步骤或阶段。
What is Machine Learning Life Cycle?
机器学习生命周期是一个从业务问题转到机器学习解决方案的迭代过程。它用作开发机器学习项目以解决问题的指南。在开发 ML 解决方案时,它为我们在每个阶段使用的说明和最佳实践提供了指导。
机器学习生命周期是一个涉及从问题识别到模型部署和监控的多个阶段的过程。在开发 ML 项目时,生命周期中的每个步骤都将在这些阶段中多次重新检查。端到端机器生命周期过程中涉及的阶段/步骤如下 −
-
Problem Definition
-
Data Preparation
-
Model Development
-
Model Deployment
-
Monitoring and Maintenance
让我们详细讨论上述机器学习生命周期过程的阶段 −
Problem Definition
机器学习生命周期中的第一步是确定你要解决的问题。这是一个至关重要的步骤,它能帮助你开始针对问题构建机器学习解决方案。这个识别问题的过程将建立对输出结果、任务范围及其目标的理解。
由于此步骤为构建机器学习模型奠定了基础,因此问题定义必须明确且简洁。
此阶段涉及了解业务问题、定义问题陈述并确定机器学习模型的成功标准。
Data Preparation
数据准备是一个针对数据分析而对数据进行准备的过程,通过进行数据探索、特征工程和特征选择。数据探索涉及对数据的可视化和理解,而特征工程涉及从现有数据创建新特征。特征选择涉及选择将用于训练机器学习模型的最相关特征。
数据准备过程包括收集数据、预处理数据以及特征工程和特征选择。此阶段通常还包括探索性数据分析。
让我们讨论一下机器学习生命周期过程的数据准备阶段涉及的每个步骤——
1. Data Collection
在分析问题陈述后,下一步就是收集数据。这涉及从各种来源收集数据,这些数据作为原始材料提供给机器学习模型。收集数据时要考虑的一些特征包括——
-
Relevant and usefulness − 收集的数据必须与问题陈述相关,并且还应足够有用,能够有效地训练机器学习模型。
-
Quality and Quantity − 收集的数据的质量和数量将直接影响机器学习模型的性能。
-
Variety − 确保收集的数据是多种多样的,以便可以用多种方案对模型进行训练,从而识别模式。
可以从各种来源收集数据,例如调查、现有数据库和 Kaggle 等在线平台。这些来源可能是包含专门针对问题陈述收集的数据的原始数据,而二级数据包括现有数据。
2. Data Preprocessing
收集的数据通常可能是无结构且混乱的,这会导致对结果产生负面影响,因此,预处理数据对于提高机器学习模型的准确性和性能非常重要。需要解决的问题包括 missing values, duplicate data, invalid data and noise 。
这一数据预处理步骤也称为数据整理,旨在使数据更易于使用和更适用于分析。
Model Development
在模型开发阶段,使用准备好的数据建立机器学习模型。模型构建过程包括选择合适的机器学习算法、算法训练、调整算法的超参数以及使用交叉验证技术评估模型的性能。
此阶段主要包括三个步骤,分别是模型选择、模型训练和模型评估。我们详细讨论一下这三个步骤——
1. Model Selection
模型选择是机器学习工作流中的关键步骤。选择模型的决定取决于一些基本特征,例如数据的特征、问题的复杂程度、期望的结果以及其与已定义问题的契合程度。此步骤影响模型的结果和性能指标。