Natural Language Toolkit 简明教程
Natural Language Toolkit - Introduction
What is Natural Language Processing (NLP)?
人类可以藉此说话、阅读和写作的交流方式,就是语言。换句话说,我们人类可以用我们的自然语言思考、制定计划、做出决定。这里的大问题是在人工智能、机器学习和深度学习的时代,人类是否可以通过自然语言与计算机/机器交流?开发NLP应用程序对我们来说是一个巨大的挑战,因为计算机需要结构化数据,但另一方面,人类语言是无结构且本质上含糊的。
自然语言是计算机科学,更具体地说是人工智能的一个子领域,它使计算机/机器能够理解、处理和处理人类语言。简单来说,NLP是机器分析、理解和从人类自然语言(如印地语、英语、法语、荷兰语等)中获取意义的一种方式。
How does it work?
在深入了解NLP的工作原理之前,我们必须了解人类如何使用语言。每天,我们人类都会使用数百或数千个单词,而其他人会对它们进行解释并相应地回答。这对人类来说是一种简单的交流,不是吗?但我们知道单词的含义远不止于此,我们总是可以从所说的话和说话的方式中得出上下文。这就是为什么我们可以说,与关注语音调制相比,NLP确实利用了上下文模式。
让我们用一个示例来理解它 −
Man is to woman as king is to what?
We can interpret it easily and answer as follows:
Man relates to king, so woman can relate to queen.
Hence the answer is Queen.
人类如何知道哪个词是什么意思?这个问题的答案是我们通过经验学习。但是,机器/计算机如何学习相同的知识?
让我们通过以下简单的步骤来理解它 −
-
首先,我们需要用足够的数据来喂机器,以便机器能够从经验中学习。
-
然后,机器将使用深度学习算法,从我们之前馈送的数据以及周围的数据中创建词向量。
-
然后,通过对这些词向量执行简单的代数运算,机器将能够像人类一样提供答案。
Components of NLP
以下图表表示自然语言处理 (NLP) 的组成部分 −
Morphological Processing
形态处理是 NLP 的第一个组成部分。它包括将语言输入块分解为与段落、句子和单词相对应的标记集。例如,像 “everyday” 这样的单词可以分解为两个子单词标记 “every-day” 。
Syntax analysis
句法分析是 NLP 的第二个组成部分,也是 NLP 最重要的组成部分之一。此组件的目的如下 −
-
检查句子是否结构良好。
-
将其分解为显示不同单词之间句法关系的结构。
-
例如,诸如 “The school goes to the student” 的句子会被句法分析器拒绝。
Examples of NLP Applications
NLP 是一种新兴技术,可推导出各种形式的 AI,我们现在习惯于看到这些形式。对于当今和未来的认知应用,在人机之间创建无缝交互界面的 NLP 用途将继续成为重中之重。以下是 NLP 的一些非常有用的应用。
Fighting Spam
由于不需要的电子邮件大量增加,垃圾邮件过滤器变得很重要,因为它是对付此问题的第一道防线。通过将其误报和漏报问题视为主要问题,NLP 的功能可用于开发垃圾邮件过滤系统。
N-gram 模型、词干提取和贝叶斯分类是一些现有的 NLP 模型,可用于垃圾邮件过滤。
Information retrieval & Web search
大多数搜索引擎,如 Google、Yahoo、Bing、WolframAlpha 等等,都将其机器翻译 (MT) 技术建立在 NLP 深度学习模型之上。此类深度学习模型允许算法阅读网页上的文本,解释其含义并将其翻译成另一种语言。
Automatic Text Summarization
自动文本摘要是一种技术,它可以创建较长文本文档的简短、准确的摘要。因此,它可以帮助我们用更少的时间获取相关信息。在这个数字时代,我们迫切需要自动文本摘要,因为互联网上的信息洪流不会停止。NLP 及其功能在开发自动文本摘要时发挥着重要作用。