Machine Learning With Python 简明教程
Machine Learning - Basic Concepts
我们知道机器学习是人工智能的一个子集,它涉及训练计算机算法自动学习数据中的模式和关系。这里有一些机器学习的基本概念 −
Data
数据是机器学习的基础。没有数据,算法将无处学习。数据可以有多种形式,包括结构化数据(例如电子表格和数据库)和非结构化数据(例如文本和图像)。用于训练机器学习算法的数据的质量和数量是关键因素,可以显著影响其表现。
Feature
在机器学习中,特征是描述输入数据的变量或属性。目标是选择最相关和信息最丰富的特征,能让算法做出准确的预测或判断。特征选择是机器学习过程中至关重要的一步,因为算法的表现很大程度上取决于所用特征的质量和相关性。
Model
机器学习模型是输入数据(特征)和输出(预测或判断)之间关系的数学表示。使用训练数据集创建模型,然后使用一个独立的验证数据集对其进行评估。目标是创建能够准确推广到新数据和从未见过的数据的模型。
Training
训练是教机器学习算法进行准确预测或判断的过程。这是通过向算法提供一个大数据集并允许它从数据中的模式和关系中学到而实现的。在训练期间,算法调整其内部参数,使预测输出和实际输出之间的差最小。
Overfitting
过拟合发生在机器学习模型过于复杂并且过于紧密地拟合训练数据时。这会导致对新数据和从未见过的数据的糟糕表现,因为该模型过于专门针对训练数据集。为了防止过拟合,使用一个验证数据集来评估模型的表现并使用正则化技术来简化模型非常重要。
Underfitting
欠拟合发生在机器学习模型过于简单并且不能捕捉数据中的模式和关系时。这会导致在训练数据集和测试数据集中的表现都很糟糕。为了防止欠拟合,我们可以使用若干技术,例如增加模型复杂性、收集更多数据、减少正则化以及特征工程。
需要注意的是,防止欠拟合是在模型复杂性和可用数据量之间进行平衡。增加模型复杂度有助于防止欠拟合,但如果没有足够的数据来支持增加的复杂度,则可能发生过拟合。因此,重要的是监视模型的性能并根据需要调整复杂度。
Why & When to Make Machines Learn?
我们已经讨论了机器学习的必要性,但另一个问题出现了,即在什么情况下我们必须让机器学习?机器需要高效且大规模地进行数据驱动决策的情况可能有多种。以下是机器学习更有效的一些情况−
Machine Learning Model
在讨论机器学习模型之前,我们需要了解米切尔教授给出的以下 ML 正式定义:
“如果计算机程序相对于某些类别的任务 T 和性能衡量标准 P 从经验 E 中学习,那么根据 P 衡量,它在 T 中的任务的性能会通过经验 E 而提高。”
上面的定义主要关注三个参数,也是任何学习算法的主要组成部分,即任务(T)、性能(P)和经验(E)。在这种情况下,我们可以将此定义简化为−
机器学习是包括学习算法的人工智能领域,其中包含:
-
Improve their performance (P)
-
在执行某个任务 (T) 时
-
随着时间的推移和经验 (E)
基于上述内容,以下图表表示一个机器学习模型−
现在让我们更详细地讨论它们−
Task(T)
从问题的角度来看,我们可以将任务 T 定义为要解决的现实世界问题。该问题可以是找到特定位置的最佳房屋价格或找到最佳营销策略等。另一方面,如果我们谈论机器学习,任务的定义是不同的,因为很难通过传统编程方法解决基于机器学习的任务。
任务 T 被称为基于机器学习的任务,当它基于数据点进行操作必须遵循的过程和系统时。基于机器学习的任务的示例包括分类、回归、结构化注释、聚类、转录等。