Python Data Science 简明教程
Python Data Science - Environment Setup
为了成功创建和运行本教程中的示例代码,我们需要设置一个环境,其中既有通用 Python,也有数据科学所需的特殊包。我们将首先研究安装通用 Python,它可以是 Python 2 还是 Python 3。但我们将首选 Python 2,主要是因为它更成熟,并且更广泛地支持外部包。
Getting Python
最新的源代码、二进制文件、文档、新闻等信息可在 Python 官方网站 https://www.python.org/ 上获取。
你可以从 https://www.python.org/doc/ 下载 Python 文档。文档提供 HTML、PDF 和 PostScript 格式。
Installing Python
Python 发行版可用于各种平台。你只需下载适用于你的平台的二进制代码并安装 Python。
如果你的平台没有二进制代码,你需要 C 编译器来手动编译源代码。编译源代码在安装中所需特性的选择方面提供了更大的灵活性。
以下是对在各种平台上安装 Python 的快速概述 −
Unix and Linux Installation
以下是在 Unix/Linux 计算机上安装 Python 的简单步骤。
-
打开网络浏览器,并转到 https://www.python.org/downloads/ 。
-
按照链接下载适用于 Unix/Linux 的压缩源代码。
-
Download and extract files.
-
如果要自定义一些选项,请编辑 Modules/Setup 文件。
-
run ./configure script
-
make
-
make install
这会在标准位置 /usr/local/bin 中安装 Python,并在 /usr/local/lib/pythonXX 中安装其库,其中 XX 是 Python 的版本。
Windows Installation
以下是如何在 Windows 机器上安装 Python:
-
打开网络浏览器,并转到 https://www.python.org/downloads/ 。
-
按照链接获取 Windows 安装程序 python-XYZ.msi 文件,其中 XYZ 是您需要安装的版本。
-
要使用此安装程序 python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。将安装程序文件保存到您的本地机器,然后运行它以了解您的机器是否支持 MSI。
-
运行下载的文件。这会打开 Python 安装向导,它非常易于使用。只需接受默认设置,等待安装完成,即可。
Macintosh Installation
新近的 Mac 上都预装了 Python,但可能已过时很多年。请参阅 http://www.python.org/download/mac/ 以获取有关获取 Mac 上支持开发的其他工具的当前版本的说明。对于 Mac OS X 10.3(在 2003 年发布)之前的旧 Mac 操作系统,可以使用 MacPython。
由 Jack Jansen 维护,您可以在他的网站上完全访问完整的文档 − 链接:http://www.cwi.nl/ jack/macpython.html[http://www.cwi.nl/ jack/macpython.html]。您可以找到 Mac OS 安装的完整安装详细信息。
Setting up PATH
程序和其他可执行文件可以位于许多目录中,因此操作系统会提供一个搜索路径,其中列出了操作系统搜索可执行文件的目录。
路径存储在环境变量中,该变量是由操作系统维护的一个已命名字符串。此变量包含可供命令 shell 和其他程序使用的信息。
path 变量在 Unix 中被命名为 PATH,在 Windows 中被命名为 Path(Unix 区分大小写;Windows 不区分大小写)。
在 Mac OS 中,安装程序会处理路径详细信息。要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的路径中。
Setting path at Unix/Linux
要在 Unix 中为特定会话将 Python 目录添加到路径中 −
-
In the csh shell - 键入 setenv PATH "$PATH:/usr/local/bin/python" 并按回车。
-
In the bash shell (Linux) − 键入 export ATH="$PATH:/usr/local/bin/python",然后按 Enter 键。
-
In the sh or ksh shell - 键入 PATH="$PATH:/usr/local/bin/python" 并按回车。
-
Note - /usr/local/bin/python是Python目录的路径
Setting path at Windows
要在Windows特定会话的路径中添加Python目录:
At the command prompt - 键入 path %path%;C:\Python 并按回车。
Note - C:\Python是Python目录的路径
Python Environment Variables
以下是Python可以识别的重要环境变量:
Sr.No. |
Variable & Description |
1 |
PYTHONPATH 它的作用类似于PATH。此变量告诉Python解释器从何处找到导入到程序中的模块文件。它应该包括Python源代码库目录和包含Python源代码的目录。PYTHONPATH有时由Python安装程序预先设置。 |
2 |
PYTHONSTARTUP 它包含一个初始化文件(该文件包含Python源代码)的路径。每次启动解释器时都会执行它。它在Unix中被命名为.pythonrc.py,并且包含加载实用程序或修改PYTHONPATH的命令。 |
3 |
PYTHONCASEOK 在Windows中,使用它指示Python在导入语句中查找首例不区分大小写的匹配项。将此变量设置为任何值以激活它。 |
4 |
PYTHONHOME 它是一种备用模块搜索路径。它通常嵌入在PYTHONSTARTUP或PYTHONPATH目录中,以便轻松切换模块库。 |
Running Python
有三种不同的方法可用于启动Python:
Interactive Interpreter
您可以从Unix、DOS或任何其他提供命令行解释器或shell窗口的系统启动Python。
在命令行中输入 python 。
在交互式解释器中立即开始编码。
$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS
以下是所有可用命令行选项的列表:
Sr.No. |
Option & Description |
1 |
-d It provides debug output. |
2 |
-O 它生成优化的字节码(生成.pyo文件)。 |
3 |
-S 不要运行import site在启动时查找Python路径。 |
4 |
-v 详细输出(导入语句的详细跟踪)。 |
5 |
-X 禁用基于类的内置异常(仅使用字符串);从 1.6 版本开始已过时。 |
6 |
-c cmd 运行作为 cmd 字符串发送的 Python 脚本 |
7 |
file 从给定的文件运行 Python 脚本 |
Installing SciPy Pack
启用所需包的最佳方法是使用特定于操作系统的可安装二进制包。这些二进制文件包含完整的 SciPy 堆栈(包括 NumPy、SciPy、matplotlib、IPython、SymPy 和 nose 包以及核心 Python)。
Windows
Anaconda(来自 www.continuum.io )是 SciPy 堆栈的免费 Python 发行版。它也可用于 Linux 和 Mac。
Canopy ( www.enthought.com/products/canopy/ ) 是免费的,同时也是 SciPy 堆栈的商业发行版,适用于 Windows、Linux 和 Mac。
Python (x,y):它是一个免费的 Python 发行版,带有 SciPy 堆栈和 Spyder IDE,适用于 Windows 操作系统。(可从 www.python-xy.github.io/ 下载)
For Ubuntu
sudo apt-get install python-numpy
python-scipy python-matplotlibipythonipythonnotebook python-pandas
python-sympy python-nose
For Fedora
sudo yum install numpyscipy python-matplotlibipython
python-pandas sympy python-nose atlas-devel
Building from Source
必须安装带有 distutils 的核心 Python(2.6.x、2.7.x 和 3.2.x 及更高版本),并且应启用 zlib 模块。
必须有 GNU gcc(4.2 及更高版本)C 编译器。
要安装 NumPy,请运行以下命令。
Python setup.py install
让我们测试 NumPy 模块是否已正确安装,尝试从 Python 提示符导入它。
如果未安装,将显示以下错误消息。
Traceback (most recent call last):
File "<pyshell#0>", line 1, in <module>
import numpy
ImportError: No module named 'numpy'
类似地,我们可以检查下一章中所示的所有必需数据科学包的安装。