Machine Learning 简明教程

Machine Learning - Ecosystem

Python 已成为机器学习最流行的编程语言之一,因为它简单、用途广泛,并拥有大量的库和工具生态系统。有很多种编程语言,例如 Java、C++、Lisp、Julia、Python 等,可用于机器学习。在这些语言中,Python 编程语言获得了极大的普及。

在这里,我们将探讨 Python 机器学习生态系统,重点介绍一些最流行的库和框架。

Python Machine Learning Ecosystem

机器学习生态系统是指用于开发机器学习应用程序的一系列工具和技术。Python 提供了各种库和工具,构成了 Python 机器学习生态系统中的组件。这些有用的组件使 Python 成为机器学习和数据科学的重要语言。尽管有许多这样的组件,但让我们在此讨论 Python 生态系统中一些重要的组件:

  1. Programming Language: Python

  2. Integrated Development Environment

  3. Python Libraries

Programming Language: Python

编程语言是任何开发生态系统中的重要组件。Python 编程语言广泛用于机器学习和数据科学。

让我们讨论为什么 Python 是机器学习的最佳选择。

Why Python for Machine Learning?

根据 Stack OverFlow 开发者调查 2023,Python 是第三大最流行编程语言,并且是最流行的机器学习和数据科学语言。下面是使 Python 成为数据科学语言的首选的特性:

Python 拥有庞大且功能强大的软件包集,可随时用于各个领域。它还拥有机器学习和数据科学所需的软件包,如 numpy, scipy, pandas, scikit-learn 等。

Python 的另一个重要特性使其成为数据科学语言首选,那就是轻松而快速的原型制作。该特性对于开发新算法非常有用。

数据科学领域基本上需要良好的协作,而 Python 提供了许多有用的工具,极大地促进了协作。

典型的数据科学项目包括各个领域,如数据提取、数据处理、数据分析、特征提取、建模、评估、部署和更新解决方案。由于 Python 是一种多用途语言,它允许数据科学家从一个通用平台来处理所有这些领域。

Strengths and Weaknesses of Python

每种编程语言都有一些优点和缺点,Python 也如此。

根据研究和调查,Python 是第五大最重要语言,也是机器学习和数据科学中最流行的语言。这是因为 Python 具有以下优势:

Easy to learn and understand :Python 语法更简单;因此,即使是初学者也相对容易学习和理解该语言。

Multi-purpose language :Python 是一种多用途编程语言,因为它支持结构化编程、面向对象编程以及函数式编程。

Huge number of modules :Python 拥有大量模块,涵盖了编程的各个方面。这些模块很容易使用,因此使 Python 成为一种可扩展的语言。

Support of open source community :作为开源编程语言,Python 得到非常庞大的开发人员社区的支持。因此,Python 社区可以轻松修复 bug。此特性使 Python 非常强大且具有适应性。

Scalability :Python 是一种可扩展编程语言,因为它提供了比 shell 脚本更好的支持大型程序的结构。

尽管 Python是一种流行且功能强大的编程语言,但它也有自己的弱点,即执行速度慢。

与编译型语言相比,Python 的执行速度较慢,因为 Python 是一种解释型语言。这可能是 Python 社区的主要改进领域。

Installing Python

要使用 Python,我们必须先安装它。你可以使用以下两种方法之一来安装 Python:

  1. Installing Python individually

  2. 使用预打包的 Python 发行版:Anaconda

让我们详细讨论每一个。

如果你想在计算机上安装 Python,则只需为你所在的平台下载适用的二进制代码即可。Python 发行版适用于 Windows、Linux 和 Mac 平台。

以下是上述平台上安装 Python 的快速概述:

On Unix and Linux platform

通过以下步骤,我们可以在 Unix 和 Linux 平台上安装 Python −

  1. First, go to www.python.org/downloads/.

  2. 接下来,单击链接以下载适用于 Unix/Linux 的存档源代码。

  3. 现在,下载并解压文件。

  4. 接下来,如果我们想要自定义一些选项,可以编辑 Modules/Setup 文件。接下来,编写命令 run ./configure script makemake install

On Windows platform

借助以下步骤,我们可以在 Windows 平台上安装 Python:

  1. First, go to www.python.org/downloads/.

  2. 接下来,单击 Windows 安装程序 python-XYZ.msi 文件的链接。其中 XYZ 是我们要安装的版本。

  3. 现在,我们必须运行已下载的文件。它将带我们进入 Python 安装向导,它很容易使用。现在,接受默认设置并等到安装完成。

On Macintosh platform

对于 Mac OS X,建议使用 Homebrew,一个易于使用的软件包安装程序来安装 Python 3。如果你没有 Homebrew,可以使用以下命令安装:

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

可以使用以下命令更新:

$ brew update

现在,要在你的系统上安装 Python3,我们需要运行以下命令:

$ brew install python3

Anaconda 是 Python 的一个打包编译,它具有在数据科学中广泛使用的所有库。我们可以按照以下步骤使用 Anaconda 设置 Python 环境:

  1. Step 1 − 首先,我们需要从 Anaconda 发行版下载所需的安装包。链接是 www.anaconda.com/distribution/ 。你可以根据自己的要求从 Windows、Mac 和 Linux 操作系统中进行选择。

  2. Step 2 − 接下来,选择要在你的机器上安装的 Python 版本。最新的 Python 版本是 3.7。在那里,你将获得 64 位和 32 位图形安装程序的选项。

  3. Step 3 − 选择操作系统和 Python 版本后,它将在你的计算机上下载 Anaconda 安装程序。现在,双击该文件,安装程序将安装 Anaconda 软件包。

  4. Step 4 - 若要检查其是否已安装,则打开命令提示符并键入 Python。

你还可以通过 Python Essentials Online Training 中的详细视频讲座检查这一点。

Integrated Development Environment

集成开发环境(IDE)是一款软件工具,将标准开发工具组合成一个易用的单一用户界面(图形用户界面)。在机器学习和数据科学相关开发中使用着许多流行的 IDE。其中一些如下所示 −

  1. Jupyter Notebook

  2. PyCharm

  3. Visual Studio Code

  4. Spyder

  5. Sublime Text

  6. Atom

  7. Thonny

  8. Google Colab Notebook

在此,我们将详细讨论 Jupyter 笔记本。你可以访问特定 IDE 的各自官方网站以获取更多详细信息,如如何下载、安装和使用它们。

Jupyter Notebook

Jupyter 笔记本基本上提供了一个交互式计算环境,用于开发基于 Python 的数据科学应用程序。它们以前称为 iPython 笔记本。以下是 Jupyter 笔记本的一些特性,使其成为 Python ML 生态系统最佳组件之一 −

  1. Jupyter 笔记本可以通过逐步排列代码、图像、文本、输出等内容,逐步展示分析过程。

  2. 它有助于数据科学家在开发分析过程时记录其思路。

  3. 人们还可以将结果记录为该笔记本的一部分。

  4. 借助 Jupyter 笔记本,我们还可以与同行分享我们的工作。

如果你使用的是 Anaconda 发行版,那么你无需单独安装 Jupyter 笔记本,因为它已随附安装。你只需转到 Anaconda Prompt 并键入以下命令 −

C:\>jupyter notebook

按 Enter 后,它将在计算机的 localhost:8888 上启动一个笔记本服务器。它显示在以下屏幕截图中 −

jupyter notebook

现在,在单击新选项卡后,你会得到一个选项列表。选择 Python 3,它将带你到新笔记本中开始工作。你可以在以下屏幕截图中看到它的预览 −

python table
search bar

另一方面,如果你使用的是标准 Python 发行版,则可以使用流行的 Python 软件包安装程序 pip 安装 Jupyter 笔记本。

pip install jupyter

以下是 Jupyter 笔记本中的三种类型的单元格 −

Code cells − 顾名思义,我们可以使用这些单元格编写代码。在编写完代码/内容后,它会将其发送到与该笔记本关联的内核。

Markdown cells − 我们可以使用这些单元格来记录计算过程。它们可以包含诸如文本、图像、Latex 方程式、HTML 标签等内容。

Raw cells − 其中编写的文本按原样显示。这些单元格基本上用于添加我们不希望被 Jupyter 笔记本的自动转换机制转换的文本。

有关 Jupyter 笔记本的更详细研究,你可以访问以下链接 www.tutorialspoint.com/jupyter/index.htm

Python Libraries and Packages

Python 生态系统拥有大量的库和软件包,可帮助开发人员轻松快速地构建机器学习模型。我们在下面讨论了其中的一些 −

NumPy

NumPy 是 Python 中科学计算的基础库。它为大型、多维数组和矩阵提供支持,以及一组用于在这些数组和矩阵上执行操作的数学函数。

NumPy 是 Python 机器学习生态系统的一个关键组成部分,因为它提供了许多机器学习算法所需的底层数据结构和数值运算。以下是安装 NumPy 的命令 −

pip install numpy

Pandas

Pandas 是一个用于数据处理和分析的强大库。它提供了一系列用于导入、清理和转换数据的函数,连同分组和聚合数据的强大工具。

Pandas 特别适用于机器学习中的数据预处理,因为它允许对数据进行高效的处理和操作。以下是如何安装 Pandas 的命令 −

pip install pandas

Scikit-learn

Scikit-learn 是一个流行的 Python 机器学习库,提供了一系列用于分类、回归、聚类等的算法。它还包括用于数据预处理、特征选择和模型评估的工具。由于易用性、性能和广泛的文档,Scikit-learn 被广泛用于机器学习领域。

以下是如何安装 Scikit-learn 的命令 −

pip install scikit-learn

TensorFlow

TensorFlow 是一个由 Google 开发的用于机器学习的开源库。它提供了构建和训练深度学习模型的支持,并提供分布式计算和部署的工具。TensorFlow 是构建复杂机器学习模型的强大工具,特别是在计算机视觉和自然语言处理领域。以下是如何安装 TensorFlow 的命令 −

pip install tensorflow

PyTorch

PyTorch 是另一个流行的 Python 深度学习库。它由 Facebook 开发,提供了一系列用于构建和训练神经网络的工具,并支持动态计算图和 GPU 加速。

PyTorch 对于需要灵活且强大的深度学习框架的研究人员和开发人员特别有用。以下是如何安装 PyTorch 的命令 −

pip install torch

Keras

Keras 是一个基于 TensorFlow 和其他较低级别框架运行的高级神经网络库。它为构建和训练深度学习模型提供了一个简单直观的 API,这使其成为初学者和需要快速创建原型并试验不同模型的研究人员的绝佳选择。以下是如何安装 Keras 的命令 −

pip install keras

OpenCV

OpenCV 是一个计算机视觉库,它提供了用于图像和视频处理的工具,并支持机器学习算法。计算机视觉领域广泛使用它来执行诸如对象检测、图像分割和面部识别等任务。以下是如何安装 OpenCV 的命令 −

pip install opencv-python

除了这些库之外,Python 生态系统中还有许多其他用于机器学习的工具和框架,包括 XGBoost, LightGBM, spaCy,NLTK

用于机器学习的 Python 生态系统不断发展,不断开发新的库和工具。

无论您是初学者还是经验丰富的机器学习从业者,Python 都提供了一个丰富的灵活环境,用于开发和部署机器学习模型。

此处还必须注意,某些库可能需要其他依赖项或特定于系统的要求。在这些情况下,建议查阅库的文档以了解安装说明和要求。