Spacy 简明教程
Doc Class ContextManager and Property
在本章中,我们来了解 spaCy 中的上下文管理器和 Doc 类的属性。
Context Manager
它是一个上下文管理器,用于处理 Doc 类的重新 token 化。现在,我们来详细了解一下它。
Doc.retokenize
当您使用此上下文管理器时,它首先会修改 Doc 的 token 化,存储起来,然后在上下文管理器存在时一次性做出所有的改变。
此上下文管理器的优势在于它更有效率且更不容易出错。
Example 1
请参阅下面给出的 Doc.retokenize 上下文管理器示例 −
import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Doc
doc = nlp_model("This is Tutorialspoint.com.")
with doc.retokenize() as retokenizer:
retokenizer.merge(doc[0:0])
doc
Output
您将看到以下输出 −
is Tutorialspoint.com.
Example 2
以下是 Doc.retokenize 上下文管理器的另一个示例 −
import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Doc
doc = nlp_model("This is Tutorialspoint.com.")
with doc.retokenize() as retokenizer:
retokenizer.merge(doc[0:2])
doc
Output
您将看到以下输出 −
This is Tutorialspoint.com.
Retokenize Methods
下面是表,它简要提供了有关 retokenize 方法的信息。下表详细介绍了两种 retokenize 方法。
Sr.No. |
Method & Description |
1 |
Retokenizer.merge 这将标记一个用于合并的跨度。 |
2 |
Retokenizer.split 这将标记一个用于拆分为指定 orth 的标记。 |
Properties
下面介绍了 spaCy 中 Doc 类的属性 −
Sr.No. |
Doc Property & Description |
1 |
Doc.ents 用于文档中的命名实体。 |
2 |
Doc.noun_chunks 用于在一个特定文档中迭代基本名词短语。 |
3 |
Doc.sents 用于在一个特定文档中迭代句子。 |
4 |
Doc.has_vector 表示布尔值,指示单词向量是否与对象关联。 |
5 |
Doc.vectorRepresents a real-valued meaning. |
6 |
Doc.vector_norm 表示文档的向量表示的 L2 范数。 |