Machine Learning 简明教程

Machine Learning - Life Cycle

机器学习 life cycle 是构建端到端机器学习项目或 ML 解决方案的迭代过程。随着数据量的不断增长,机器学习模型的构建是一个持续的过程。机器学习专注于通过使用真实世界数据训练模型来提高系统的性能。我们必须遵循一些明确定义的步骤才能使机器学习项目取得成功。机器学习生命周期为我们提供了这些明确定义的步骤或阶段。

What is Machine Learning Life Cycle?

机器学习生命周期是一个从业务问题转到机器学习解决方案的迭代过程。它用作开发机器学习项目以解决问题的指南。在开发 ML 解决方案时,它为我们在每个阶段使用的说明和最佳实践提供了指导。

机器学习生命周期是一个涉及从问题识别到模型部署和监控的多个阶段的过程。在开发 ML 项目时,生命周期中的每个步骤都将在这些阶段中多次重新检查。端到端机器生命周期过程中涉及的阶段/步骤如下 −

  1. Problem Definition

  2. Data Preparation

  3. Model Development

  4. Model Deployment

  5. Monitoring and Maintenance

machine learning life cycle

让我们详细讨论上述机器学习生命周期过程的阶段 −

Problem Definition

机器学习生命周期中的第一步是确定你要解决的问题。这是一个至关重要的步骤,它能帮助你开始针对问题构建机器学习解决方案。这个识别问题的过程将建立对输出结果、任务范围及其目标的理解。

由于此步骤为构建机器学习模型奠定了基础,因此问题定义必须明确且简洁。

此阶段涉及了解业务问题、定义问题陈述并确定机器学习模型的成功标准。

Data Preparation

数据准备是一个针对数据分析而对数据进行准备的过程,通过进行数据探索、特征工程和特征选择。数据探索涉及对数据的可视化和理解,而特征工程涉及从现有数据创建新特征。特征选择涉及选择将用于训练机器学习模型的最相关特征。

数据准备过程包括收集数据、预处理数据以及特征工程和特征选择。此阶段通常还包括探索性数据分析。

让我们讨论一下机器学习生命周期过程的数据准备阶段涉及的每个步骤——

1. Data Collection

在分析问题陈述后,下一步就是收集数据。这涉及从各种来源收集数据,这些数据作为原始材料提供给机器学习模型。收集数据时要考虑的一些特征包括——

  1. Relevant and usefulness − 收集的数据必须与问题陈述相关,并且还应足够有用,能够有效地训练机器学习模型。

  2. Quality and Quantity − 收集的数据的质量和数量将直接影响机器学习模型的性能。

  3. Variety − 确保收集的数据是多种多样的,以便可以用多种方案对模型进行训练,从而识别模式。

可以从各种来源收集数据,例如调查、现有数据库和 Kaggle 等在线平台。这些来源可能是包含专门针对问题陈述收集的数据的原始数据,而二级数据包括现有数据。

2. Data Preprocessing

收集的数据通常可能是无结构且混乱的,这会导致对结果产生负面影响,因此,预处理数据对于提高机器学习模型的准确性和性能非常重要。需要解决的问题包括 missing values, duplicate data, invalid data and noise

这一数据预处理步骤也称为数据整理,旨在使数据更易于使用和更适用于分析。

3. Analyzing Data

在对数据进行排序后,就开始了解所收集的数据。对数据进行可视化和统计总结以获得见解。

使用了 Power BI、Tableau 等各种工具来对数据进行可视化,这有助于理解数据中的模式和趋势。此分析将有助于在特征工程和模型选择中做出选择。

4. Feature Engineering and Selection

“特征”是机器学习模型在训练时最好观察到的单个可测量量。 Feature Engineering 是创建新特征或增强现有特征的过程,以准确了解数据中的模式和趋势。

Feature selection 涉及选择与问题陈述一致且更有意义的特征的过程。特征工程和选择的目的是减小数据集的大小,这对于解决数据增长问题非常重要。

Model Development

在模型开发阶段,使用准备好的数据建立机器学习模型。模型构建过程包括选择合适的机器学习算法、算法训练、调整算法的超参数以及使用交叉验证技术评估模型的性能。

此阶段主要包括三个步骤,分别是模型选择、模型训练和模型评估。我们详细讨论一下这三个步骤——

1. Model Selection

模型选择是机器学习工作流中的关键步骤。选择模型的决定取决于一些基本特征,例如数据的特征、问题的复杂程度、期望的结果以及其与已定义问题的契合程度。此步骤影响模型的结果和性能指标。

2. Model Training

在此过程中,将预处理的数据集导入算法来识别和理解指定特征中的模式和关系。

通过调整参数对模型进行一致地训练将提高预测率并增强准确性。此步骤使模型在实际场景中变得可靠。

3. Model Evaluation

在模型评估中,使用一组评估指标评估机器学习模型的性能。这些指标测量模型的准确度、精确度、召回率和 F1 分数。如果模型未达到期望的性能,则调整模型以调整超参数并提高预测准确度。这种持续迭代对于提高模型的准确度和可靠性至关重要。

如果模型的性能仍然不令人满意,则可能需要返回到模型选择阶段,并继续进行模型训练和评估以提高模型的性能。

Model Deployment

在模型部署阶段,我们将机器学习模型部署到生产中。此过程涉及将经过测试的模型与现有系统集成,以使其可供用户、管理或其他目的使用。这也涉及在真实环境中测试模型。

部署前必须检查的两个重要因素是:模型是否便携,即能够将软件从一台机器传输到另一台机器,以及是否可扩展,即无需重新设计模型即可保持性能。

Monitor and Maintenance

机器学习中的监控涉及度量模型性能指标和检测模型中问题的技术。检测到问题后,必须使用新数据训练模型或修改架构。

有时,通过使用新数据对设计的模型进行训练无法解决检测到的问题,则该问题变为问题陈述。因此,机器学习生命周期从重新分析问题转变为开发改进的模型。

机器学习生命周期是一个迭代过程,可能有必要重新审视前面的阶段以提高模型性能或满足新的需求。通过遵循机器学习生命周期,数据科学家可以确保他们的机器学习模型有效、准确且满足业务需求。