Python Text Processing 简明教程

Python - Text Processing Environment

为了成功创建和运行本教程中的示例代码,我们需要设置一个环境,其中既有通用 Python,也有数据科学所需的特殊包。我们将首先研究安装通用 Python,它可以是 Python 2 还是 Python 3。但我们将首选 Python 2,主要是因为它更成熟,并且更广泛地支持外部包。

Getting Python

最新的源代码、二进制文件、文档、新闻等信息可在 Python 官方网站 https://www.python.org/ 上获取。

你可以从 https://www.python.org/doc/ 下载 Python 文档。文档提供 HTML、PDF 和 PostScript 格式。

Installing Python

Python 发行版可用于各种平台。你只需下载适用于你的平台的二进制代码并安装 Python。

如果你的平台没有二进制代码,你需要 C 编译器来手动编译源代码。编译源代码在安装中所需特性的选择方面提供了更大的灵活性。

以下是对在各种平台上安装 Python 的快速概述 −

Unix and Linux Installation

以下是在 Unix/Linux 计算机上安装 Python 的简单步骤。

  1. 打开网络浏览器,并转到 https://www.python.org/downloads/

  2. 按照链接下载适用于 Unix/Linux 的压缩源代码。

  3. Download and extract files.

  4. 如果要自定义一些选项,请编辑 Modules/Setup 文件。

  5. run ./configure script

  6. make

  7. make install

这会在标准位置 /usr/local/bin 中安装 Python,并在 /usr/local/lib/pythonXX 中安装其库,其中 XX 是 Python 的版本。

Windows Installation

以下是如何在 Windows 机器上安装 Python:

  1. 打开网络浏览器,并转到 https://www.python.org/downloads/

  2. 按照链接获取 Windows 安装程序 python-XYZ.msi 文件,其中 XYZ 是您需要安装的版本。

  3. 要使用此安装程序 python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。将安装程序文件保存到您的本地机器,然后运行它以了解您的机器是否支持 MSI。

  4. 运行下载的文件。这会打开 Python 安装向导,它非常易于使用。只需接受默认设置,等待安装完成,即可。

Macintosh Installation

新近的 Mac 上都预装了 Python,但可能已过时很多年。请参阅 http://www.python.org/download/mac/ 以获取有关获取 Mac 上支持开发的其他工具的当前版本的说明。对于 Mac OS X 10.3(在 2003 年发布)之前的旧 Mac 操作系统,可以使用 MacPython。

由 Jack Jansen 维护,您可以在他的网站上完全访问完整的文档 − 链接:http://www.cwi.nl/ jack/macpython.html[http://www.cwi.nl/ jack/macpython.html]。您可以找到 Mac OS 安装的完整安装详细信息。

Setting up PATH

程序和其他可执行文件可以位于许多目录中,因此操作系统会提供一个搜索路径,其中列出了操作系统搜索可执行文件的目录。

路径存储在环境变量中,该变量是由操作系统维护的一个已命名字符串。此变量包含可供命令 shell 和其他程序使用的信息。

path 变量在 Unix 中被命名为 PATH,在 Windows 中被命名为 Path(Unix 区分大小写;Windows 不区分大小写)。

在 Mac OS 中,安装程序会处理路径详细信息。要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的路径中。

Setting path at Unix/Linux

要在 Unix 中为特定会话将 Python 目录添加到路径中 −

  1. In the csh shell - 键入 setenv PATH "$PATH:/usr/local/bin/python" 并按回车。

  2. In the bash shell (Linux) − 键入 export ATH="$PATH:/usr/local/bin/python",然后按 Enter 键。

  3. In the sh or ksh shell - 键入 PATH="$PATH:/usr/local/bin/python" 并按回车。

  4. Note - /usr/local/bin/python是Python目录的路径

Setting path at Windows

要在Windows特定会话的路径中添加Python目录:

At the command prompt - 键入 path %path%;C:\Python 并按回车。

Note - C:\Python是Python目录的路径

Python Environment Variables

以下是Python可以识别的重要环境变量:

Sr.No.

Variable & Description

1

PYTHONPATH 它的作用类似于PATH。此变量告诉Python解释器从何处找到导入到程序中的模块文件。它应该包括Python源代码库目录和包含Python源代码的目录。PYTHONPATH有时由Python安装程序预先设置。

2

PYTHONSTARTUP 它包含一个初始化文件(该文件包含Python源代码)的路径。每次启动解释器时都会执行它。它在Unix中被命名为.pythonrc.py,并且包含加载实用程序或修改PYTHONPATH的命令。

3

PYTHONCASEOK 在Windows中,使用它指示Python在导入语句中查找首例不区分大小写的匹配项。将此变量设置为任何值以激活它。

4

PYTHONHOME 它是一种备用模块搜索路径。它通常嵌入在PYTHONSTARTUP或PYTHONPATH目录中,以便轻松切换模块库。

Running Python

有三种不同的方法可用于启动Python:

Interactive Interpreter

您可以从Unix、DOS或任何其他提供命令行解释器或shell窗口的系统启动Python。

在命令行中输入 python

在交互式解释器中立即开始编码。

$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS

以下是所有可用命令行选项的列表:

Sr.No.

Option & Description

1

-d It provides debug output.

2

-O 它生成优化的字节码(生成.pyo文件)。

3

-S 不要运行import site在启动时查找Python路径。

4

-v 详细输出(导入语句的详细跟踪)。

5

-X 禁用基于类的内置异常(仅使用字符串);从 1.6 版本开始已过时。

6

-c cmd 运行作为 cmd 字符串发送的 Python 脚本

7

file 从给定的文件运行 Python 脚本

Script from the Command-line

可通过 invoking the interpreter on your application,在命令行中执行 Python 脚本,如下所示:

$python script.py # Unix/Linux

or

python% script.py # Unix/Linux

or

C: >python script.py # Windows/DOS

Note − 确保文件权限模式允许执行。

Integrated Development Environment

如果系统上的 GUI 应用程序支持 Python,您还可以从图形用户界面 (GUI) 环境中运行 Python。

  1. Unix − IDLE 是 Python 的第一个 Unix IDE。

  2. Windows − PythonWin 是 Python 的第一个 Windows 界面,它是一款带有 GUI 的 IDE。

  3. Macintosh − 可通过官方网站下载 Python 的 Macintosh 版本以及 IDLE IDE,可下载 MacBinary 或 BinHex’d 文件。

Installing NLTK Pack

NLTK 非常直接地集成到 Python 环境中。使用下面的命令将 NLTK 添加到环境中。

sudo pip install -U nltk

将在每章中根据需要讨论其他库的添加,以便在 Python 程序中使用它们。