Data Science 简明教程
Data Science - Machine Learning
机器学习使机器能够从数据中自动学习、从经验中提高性能并预测事物,而无需明确编程。机器学习主要涉及开发算法,让计算机能够自行从数据和过去的经验中学习。机器学习一词最早由阿瑟·塞缪尔在 1959 年提出。
数据科学是一门从数据中获取有用见解的科学,以便获取最关键和最相关的的信息来源。并在给定可靠数据流的情况下,使用机器学习生成预测。
数据科学和机器学习是计算机科学的子领域,重点在于分析和利用大量数据,以改进产品、服务、基础设施系统等的开发和向市场推出这些产品的流程。
两者之间的关系类似于正方形是矩形,但矩形不是正方形。数据科学是包罗万象的矩形,而机器学习则是正方形,是它自己的实体。它们都是数据科学家在其工作中常用的,并且越来越受到几乎所有企业的接受。
What is Machine Learning?
机器学习 (ML) 是一种算法,它让软件能够更准确地预测未来会发生什么,而无需专门编程来执行此操作。机器学习的基本思想是制定算法,让其可以将数据作为输入,并使用统计分析来预测输出,并且随着新数据的出现,还会更新输出。
机器学习是使用算法在数据中查找模式,然后预测这些模式在未来如何变化的人工智能的一部分。这使工程师能够使用统计分析来查找数据中的模式。
Facebook、Twitter、Instagram、YouTube 和 TikTok 基于你过去的行为收集有关其用户的信息,它可以猜测你的兴趣和要求,并推荐适合你需要的产品、服务或文章。
机器学习是一组工具和概念,用于数据科学,但它们也出现在其他领域。数据科学家通常在他们的工作中使用机器学习,以帮助他们更快地获取更多信息或找出趋势。
Types of Machine Learning
机器学习可以分为三种类型的算法——
-
Supervised learning
-
Unsupervised learning
-
Reinforcement learning
Supervised Learning
监督式学习是一种机器学习和人工智能。它也被称为“监督式机器学习”。它的定义是它使用标记数据集来训练算法如何正确分类数据或预测结果。当数据被放入模型时,其权重会发生变化,直到模型正确合适。这是交叉验证过程的一部分。监督式学习帮助组织为广泛的现实世界问题找到大规模解决方案,例如像 Gmail 中将垃圾邮件分类到与收件箱分开的文件夹一样,我们有一个垃圾邮件文件夹。
Supervised Learning Algorithms
一些监督式学习算法有——
-
Naive Bayes - 朴素贝叶斯是一种基于贝叶斯定理的类条件独立原理的分类算法。这意味着一个特征的存在不会改变另一个特征出现的可能性,并且每个预测变量对结果/结果有相同的影响。
-
Linear Regression - 线性回归用于找出因变量如何与一个或多个自变量相关,并预测未来会发生什么。当只有一个自变量和一个因变量时,就是简单线性回归。
-
Logistic Regression - 当因变量连续时,使用线性回归。当因变量是分类的,如“真”或“假”或“是”或“否”时,使用逻辑回归。线性回归和逻辑回归都试图找出数据输入之间的关系。但是,逻辑回归主要用于解决二元分类问题,例如找出特定的邮件是否是垃圾邮件。
-
Support Vector Machines(SVM) - 支持向量机是弗拉基米尔·瓦普尼克开发的监督式学习的流行模型。它可以用于分类和预测数据。因此,它通常用于通过制作超平面来解决分类问题,其中两组数据点之间的距离最大。这条线被称为“决策边界”,因为它将数据点组(例如橙子和苹果)划分为平面的两侧。
-
K-nearest Neighbour - KNN 算法,也称为“k-最近邻”算法,根据数据点与其他数据点之间的接近程度和相关程度对数据点进行分组。该算法基于这样的思想:相似的点会彼此靠近。因此,它试图找出数据点的间隔,使用欧几里德距离,然后根据最常见或平均类别分配类别。但是,随着测试数据集大小的增加,处理时间也会增加,使其不太适合分类任务。
-
Random Forest - 随机森林是另一种灵活的监督式机器学习算法,可用于分类和回归。这片“森林”是一组互不相关的决策树。然后将这些树合并以减少变化并做出更准确的数据预测。
Unsupervised Learning
无监督学习(也称为无监督机器学习)使用机器学习算法查看未标记数据集并将其分组在一起。这些程序可以找到隐藏的模式或数据组。它查找信息中相似性和差异性的能力使其非常适合探索性数据分析、交叉销售策略、客户细分和图像识别。
Common Unsupervised Learning Approaches
无监督学习模型用于以下三个主要任务:聚类、建立连接和降低维度。下面,我们将介绍学习方法和常用算法 -
Clustering - 聚类是一种数据挖掘方法,可根据相似性或差异性对未标记数据进行组织。聚类技术用于根据数据中的结构或模式将未分类、未经处理的数据项组织到组中。聚类算法有很多类型,包括排他、重叠、层次和概率。
K-means Clustering 是聚类方法的一个流行示例,其中数据点根据到每个组的质心的距离分配到 K 组。最接近某个质心的数据点将被归入同一类别。较高的 K 值表示具有更多粒度的较小组,而较低的 K 值表示具有较少粒度的较大组。K 均值聚类的常见应用包括市场细分、文档聚类、图像分割和图像压缩。
Dimensionality Reduction - 尽管更多的数据通常会产生更准确的发现,但它也可能影响机器学习算法的有效性(例如,过拟合)并使数据集难以可视化。降维是一种在数据集具有过多特征或维度时使用的策略。它将数据输入量减少到可管理的水平,同时尽可能保持数据集的完整性。降维通常应用于数据预处理阶段,有很多方法,其中之一就是 -
Principal Component Analysis (PCA) - 这是通过特征提取消除冗余和压缩数据集的降维方法。此方法采用线性变换来生成新的数据表示,从而产生一组“主成分”。第一个主成分是使方差最大化的数据集方向。尽管第二个主成分同样在数据中找到了最大的方差,但它与第一个完全不相关,从而产生了与第一个正交的方向。此过程根据维度的数量重复,下一个主分量是与最可变前一个分量正交的方向。
Data Science vs Machine Learning
数据科学是对数据的研究以及如何从中得出有意义的见解,而机器学习是对使用数据来提高性能或为预测提供信息的模型的研究和开发。机器学习是人工智能的一个子领域。
近年来,机器学习和人工智能 (AI) 已开始主导数据科学的部分领域,在数据分析和商业智能中发挥着至关重要的作用。机器学习通过使用模型和算法收集和分析有关特定人群的巨量数据,自动执行数据分析并根据这些数据进行预测。数据科学和机器学习是相关的,但并不相同。
数据科学是一个广阔的领域,涵盖从数据中获取见解和信息的所有方面。它涉及收集、清理、分析和解释大量数据,以发现可能指导业务决策的模式、趋势和见解。
机器学习是数据科学的一个子领域,它专注于开发可以从数据中学习并根据其获取的知识进行预测或判断的算法。机器学习算法旨在通过获取新知识自动随着时间的推移提高其性能。
换句话说,数据科学包含机器学习作为其众多方法之一。机器学习是数据分析和预测的有力工具,但它只是整个数据科学的一个子领域。
下面是对比表,以清晰理解。
Data Science |
Machine Learning |
数据科学是一个广泛的领域,它涉及使用各种技术(包括统计分析、机器学习和数据可视化)从大型复杂的数据集中提取见解和知识。 |
机器学习是数据科学的一个子集,涉及定义和开发算法和模型,使机器能够从数据中学习,并在未被明确编程的情况下做出预测或决策。 |
数据科学专注于理解数据,识别模式和趋势,并提取见解以支持决策。 |
另一方面,机器学习专注于构建预测模型,并根据学习到的模式做出决策。 |
数据科学包括广泛的技术,例如数据清理、数据集成、数据探索、统计分析、数据可视化和机器学习。 |
另一方面,机器学习主要专注于使用算法(例如回归、分类和聚类)构建预测模型。 |
数据科学通常需要大而复杂的数据集,对这些数据集进行大量处理和清理才能得出见解。 |
另一方面,机器学习需要标记数据,用于训练算法和模型。 |
数据科学需要统计、编程和数据可视化技能,以及所研究领域的专业知识。 |
机器学习需要对算法、编程和数学有深入的了解,以及对特定应用领域的了解。 |
数据科学技术不仅可用于预测,还可用于各种其他用途,例如聚类、异常检测和数据可视化。 |
机器学习算法主要专注于基于数据进行预测或决策。 |
数据科学通常依赖统计方法来分析数据, |
机器学习依赖算法来进行预测或决策。 |