Python Text Processing 简明教程

Python - Text Munging

一般来说,数据整理意味着通过转换清理所有混乱内容。在我们这个案例中,我们将了解如何转换文本以获取一些结果,这些结果对数据做出一些理想的更改。从简单的层面来说,它只关系到转换我们正在处理的文本。

Example

在下面的示例中,我们计划对句中除了第一个和最后一个以外的所有字母进行混排,然后重新排列,以获取在人类书写时可能会生成的可能替换单词的错误拼写单词。此重新排列有助于我们

import random

import re

def replace(t):
    inner_word = list(t.group(2))
    random.shuffle(inner_word)
    return t.group(1) + "".join(inner_word) + t.group(3)
text = "Hello, You should reach the finish line."
print re.sub(r"(\w)(\w+)(\w)", replace, text)

print re.sub(r"(\w)(\w+)(\w)", replace, text)

当我们运行以上程序时,我们得到了以下输出 −

Hlleo, You slouhd raech the fsiinh lnie.
Hlleo, You suolhd raceh the fniish line.

在这里,您可以看到除了第一个和最后一个字母以外,单词是如何混乱的。通过采用错误拼写的统计方法,我们可以确定哪些是常见错误拼写的单词,并为其提供正确的拼写。