Python Data Science 简明教程

Python Data Science - Environment Setup

为了成功创建和运行本教程中的示例代码,我们需要设置一个环境,其中既有通用 Python,也有数据科学所需的特殊包。我们将首先研究安装通用 Python,它可以是 Python 2 还是 Python 3。但我们将首选 Python 2,主要是因为它更成熟,并且更广泛地支持外部包。

Getting Python

最新的源代码、二进制文件、文档、新闻等信息可在 Python 官方网站 https://www.python.org/ 上获取。

你可以从 https://www.python.org/doc/ 下载 Python 文档。文档提供 HTML、PDF 和 PostScript 格式。

Installing Python

Python 发行版可用于各种平台。你只需下载适用于你的平台的二进制代码并安装 Python。

如果你的平台没有二进制代码,你需要 C 编译器来手动编译源代码。编译源代码在安装中所需特性的选择方面提供了更大的灵活性。

以下是对在各种平台上安装 Python 的快速概述 −

Unix and Linux Installation

以下是在 Unix/Linux 计算机上安装 Python 的简单步骤。

  1. 打开网络浏览器,并转到 https://www.python.org/downloads/

  2. 按照链接下载适用于 Unix/Linux 的压缩源代码。

  3. Download and extract files.

  4. 如果要自定义一些选项,请编辑 Modules/Setup 文件。

  5. run ./configure script

  6. make

  7. make install

这会在标准位置 /usr/local/bin 中安装 Python,并在 /usr/local/lib/pythonXX 中安装其库,其中 XX 是 Python 的版本。

Windows Installation

以下是如何在 Windows 机器上安装 Python:

  1. 打开网络浏览器,并转到 https://www.python.org/downloads/

  2. 按照链接获取 Windows 安装程序 python-XYZ.msi 文件,其中 XYZ 是您需要安装的版本。

  3. 要使用此安装程序 python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。将安装程序文件保存到您的本地机器,然后运行它以了解您的机器是否支持 MSI。

  4. 运行下载的文件。这会打开 Python 安装向导,它非常易于使用。只需接受默认设置,等待安装完成,即可。

Macintosh Installation

新近的 Mac 上都预装了 Python,但可能已过时很多年。请参阅 http://www.python.org/download/mac/ 以获取有关获取 Mac 上支持开发的其他工具的当前版本的说明。对于 Mac OS X 10.3(在 2003 年发布)之前的旧 Mac 操作系统,可以使用 MacPython。

由 Jack Jansen 维护,您可以在他的网站上完全访问完整的文档 − 链接:http://www.cwi.nl/ jack/macpython.html[http://www.cwi.nl/ jack/macpython.html]。您可以找到 Mac OS 安装的完整安装详细信息。

Setting up PATH

程序和其他可执行文件可以位于许多目录中,因此操作系统会提供一个搜索路径,其中列出了操作系统搜索可执行文件的目录。

路径存储在环境变量中,该变量是由操作系统维护的一个已命名字符串。此变量包含可供命令 shell 和其他程序使用的信息。

path 变量在 Unix 中被命名为 PATH,在 Windows 中被命名为 Path(Unix 区分大小写;Windows 不区分大小写)。

在 Mac OS 中,安装程序会处理路径详细信息。要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的路径中。

Setting path at Unix/Linux

要在 Unix 中为特定会话将 Python 目录添加到路径中 −

  1. In the csh shell - 键入 setenv PATH "$PATH:/usr/local/bin/python" 并按回车。

  2. In the bash shell (Linux) − 键入 export ATH="$PATH:/usr/local/bin/python",然后按 Enter 键。

  3. In the sh or ksh shell - 键入 PATH="$PATH:/usr/local/bin/python" 并按回车。

  4. Note - /usr/local/bin/python是Python目录的路径

Setting path at Windows

要在Windows特定会话的路径中添加Python目录:

At the command prompt - 键入 path %path%;C:\Python 并按回车。

Note - C:\Python是Python目录的路径

Python Environment Variables

以下是Python可以识别的重要环境变量:

Sr.No.

Variable & Description

1

PYTHONPATH 它的作用类似于PATH。此变量告诉Python解释器从何处找到导入到程序中的模块文件。它应该包括Python源代码库目录和包含Python源代码的目录。PYTHONPATH有时由Python安装程序预先设置。

2

PYTHONSTARTUP 它包含一个初始化文件(该文件包含Python源代码)的路径。每次启动解释器时都会执行它。它在Unix中被命名为.pythonrc.py,并且包含加载实用程序或修改PYTHONPATH的命令。

3

PYTHONCASEOK 在Windows中,使用它指示Python在导入语句中查找首例不区分大小写的匹配项。将此变量设置为任何值以激活它。

4

PYTHONHOME 它是一种备用模块搜索路径。它通常嵌入在PYTHONSTARTUP或PYTHONPATH目录中,以便轻松切换模块库。

Running Python

有三种不同的方法可用于启动Python:

Interactive Interpreter

您可以从Unix、DOS或任何其他提供命令行解释器或shell窗口的系统启动Python。

在命令行中输入 python

在交互式解释器中立即开始编码。

$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS

以下是所有可用命令行选项的列表:

Sr.No.

Option & Description

1

-d It provides debug output.

2

-O 它生成优化的字节码(生成.pyo文件)。

3

-S 不要运行import site在启动时查找Python路径。

4

-v 详细输出(导入语句的详细跟踪)。

5

-X 禁用基于类的内置异常(仅使用字符串);从 1.6 版本开始已过时。

6

-c cmd 运行作为 cmd 字符串发送的 Python 脚本

7

file 从给定的文件运行 Python 脚本

Script from the Command-line

可通过 invoking the interpreter on your application,在命令行中执行 Python 脚本,如下所示:

$python script.py # Unix/Linux

or

python% script.py # Unix/Linux

or

C: >python script.py # Windows/DOS

Note − 确保文件权限模式允许执行。

Integrated Development Environment

如果系统上的 GUI 应用程序支持 Python,您还可以从图形用户界面 (GUI) 环境中运行 Python。

  1. Unix − IDLE 是 Python 的第一个 Unix IDE。

  2. Windows − PythonWin 是 Python 的第一个 Windows 界面,它是一款带有 GUI 的 IDE。

  3. Macintosh − 可通过官方网站下载 Python 的 Macintosh 版本以及 IDLE IDE,可下载 MacBinary 或 BinHex’d 文件。

Installing SciPy Pack

启用所需包的最佳方法是使用特定于操作系统的可安装二进制包。这些二进制文件包含完整的 SciPy 堆栈(包括 NumPy、SciPy、matplotlib、IPython、SymPy 和 nose 包以及核心 Python)。

Windows

Anaconda(来自 www.continuum.io )是 SciPy 堆栈的免费 Python 发行版。它也可用于 Linux 和 Mac。

Canopy ( www.enthought.com/products/canopy/ ) 是免费的,同时也是 SciPy 堆栈的商业发行版,适用于 Windows、Linux 和 Mac。

Python (x,y):它是一个免费的 Python 发行版,带有 SciPy 堆栈和 Spyder IDE,适用于 Windows 操作系统。(可从 www.python-xy.github.io/ 下载)

Linux

各个 Linux 发行版的包管理器用于安装 SciPy 堆栈中的一个或多个包。

For Ubuntu

sudo apt-get install python-numpy
python-scipy python-matplotlibipythonipythonnotebook python-pandas
python-sympy python-nose

For Fedora

sudo yum install numpyscipy python-matplotlibipython
python-pandas sympy python-nose atlas-devel

Building from Source

必须安装带有 distutils 的核心 Python(2.6.x、2.7.x 和 3.2.x 及更高版本),并且应启用 zlib 模块。

必须有 GNU gcc(4.2 及更高版本)C 编译器。

要安装 NumPy,请运行以下命令。

Python setup.py install

让我们测试 NumPy 模块是否已正确安装,尝试从 Python 提示符导入它。

如果未安装,将显示以下错误消息。

Traceback (most recent call last):
   File "<pyshell#0>", line 1, in <module>
      import numpy
ImportError: No module named 'numpy'

类似地,我们可以检查下一章中所示的所有必需数据科学包的安装。