Spacy 简明教程

Doc Class ContextManager and Property

在本章中,我们来了解 spaCy 中的上下文管理器和 Doc 类的属性。

Context Manager

它是一个上下文管理器,用于处理 Doc 类的重新 token 化。现在,我们来详细了解一下它。

Doc.retokenize

当您使用此上下文管理器时,它首先会修改 Doc 的 token 化,存储起来,然后在上下文管理器存在时一次性做出所有的改变。

此上下文管理器的优势在于它更有效率且更不容易出错。

Example 1

请参阅下面给出的 Doc.retokenize 上下文管理器示例 −

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Doc
doc = nlp_model("This is Tutorialspoint.com.")
with doc.retokenize() as retokenizer:
   retokenizer.merge(doc[0:0])
doc

Output

您将看到以下输出 −

is Tutorialspoint.com.

Example 2

以下是 Doc.retokenize 上下文管理器的另一个示例 −

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Doc
doc = nlp_model("This is Tutorialspoint.com.")
with doc.retokenize() as retokenizer:
   retokenizer.merge(doc[0:2])
doc

Output

您将看到以下输出 −

This is Tutorialspoint.com.

Retokenize Methods

下面是表,它简要提供了有关 retokenize 方法的信息。下表详细介绍了两种 retokenize 方法。

Sr.No.

Method & Description

1

Retokenizer.merge 这将标记一个用于合并的跨度。

2

Retokenizer.split 这将标记一个用于拆分为指定 orth 的标记。

Properties

下面介绍了 spaCy 中 Doc 类的属性 −

Sr.No.

Doc Property & Description

1

Doc.ents 用于文档中的命名实体。

2

Doc.noun_chunks 用于在一个特定文档中迭代基本名词短语。

3

Doc.sents 用于在一个特定文档中迭代句子。

4

Doc.has_vector 表示布尔值,指示单词向量是否与对象关联。

5

Doc.vectorRepresents a real-valued meaning.

6

Doc.vector_norm 表示文档的向量表示的 L2 范数。