Spacy 简明教程

spaCy - Container Span Class

本章将帮助你了解 spaCy 中的 Span 类。

Span Class

这是上面我们讨论过的 Doc 对象中的切片。

Attributes

下表解释了它的参数 −

NAME

TYPE

DESCRIPTION

doc

Doc

它表示父文档。

tensor V2.1.7

Ndarray

在 2.1.7 版本中引入,表示父 Doc’s 张量的跨度切片。

sent

Span

实际上是这个跨度所在的句子跨度。

start

Int

此属性是跨度开始处的标记偏移量。

end

Int

此属性是跨度结尾处的标记偏移量。

start_char

Int

整型属性,表示跨度开始处的字符偏移量。

end_char

Int

整型属性,表示跨度结尾处的字符偏移量。

text

Unicode

它是表示跨度文本的 Unicode。

text_with_ws

Unicode

它表示跨度的文本内容,如果最后一个标记有尾随空格字符,则也会有尾随空格字符。

orth

Int

此属性是逐字文本内容的 ID。

orth_

Unicode

它是 Unicode 逐字文本内容,与 Token.text 相同。此文本内容主要用于与其他属性保持一致性。

label

Int

此整型属性是跨度标签的哈希值。

label_

Unicode

它是跨度的标签。

lemma_

Unicode

它是跨度的词根。

kb_id

Int

它表示知识库 ID 的哈希值,该 ID 由跨度引用。

kb_id_

Unicode

它表示跨度引用的知识库 ID。

ent_id

Int

此属性表示标记是其实例的命名实体的哈希值。

ent_id_

Unicode

此属性表示标记是其实例的命名实体的字符串 ID。

sentiment

Float

一个浮点类型标量值,表示跨度的正负性。

_

Underscore

它代表了用于添加自定义属性扩展的用户空间。

Methods

跨度类中使用的方法如下 -

Sr.No.

Method & Description

1

Span._ init _ 从片段 doc[start : end] 构建跨度对象。

2

Span._ getitem _ 获取特定位置 n 处的标记对象,其中 n 为整数。

3

Span._ iter _ 遍历可轻松访问其标注的那些标记对象。

4

Span._ len _ 获取跨度中标记的数量。

5

Span.similarity 进行语义相似性估计。

6

Span.merge 对文档重新标记,将跨度合并成单个标记。

ClassMethods

跨度类中使用的类方法如下 -

Sr.No.

Classmethod & Description

1

Span.set_extension 在跨度上定义自定义属性。

2

Span.get_extension 通过名称查找以前的扩展。

3

Span.has_extension 检查扩展名是否已在跨度类上注册。

4

Span.remove_extension 删除以前在跨度类上注册的扩展名。