Spacy 简明教程
spaCy - Container Span Class
本章将帮助你了解 spaCy 中的 Span 类。
Span Class
这是上面我们讨论过的 Doc 对象中的切片。
Attributes
下表解释了它的参数 −
NAME |
TYPE |
DESCRIPTION |
doc |
Doc |
它表示父文档。 |
tensor V2.1.7 |
Ndarray |
在 2.1.7 版本中引入,表示父 Doc’s 张量的跨度切片。 |
sent |
Span |
实际上是这个跨度所在的句子跨度。 |
start |
Int |
此属性是跨度开始处的标记偏移量。 |
end |
Int |
此属性是跨度结尾处的标记偏移量。 |
start_char |
Int |
整型属性,表示跨度开始处的字符偏移量。 |
end_char |
Int |
整型属性,表示跨度结尾处的字符偏移量。 |
text |
Unicode |
它是表示跨度文本的 Unicode。 |
text_with_ws |
Unicode |
它表示跨度的文本内容,如果最后一个标记有尾随空格字符,则也会有尾随空格字符。 |
orth |
Int |
此属性是逐字文本内容的 ID。 |
orth_ |
Unicode |
它是 Unicode 逐字文本内容,与 Token.text 相同。此文本内容主要用于与其他属性保持一致性。 |
label |
Int |
此整型属性是跨度标签的哈希值。 |
label_ |
Unicode |
它是跨度的标签。 |
lemma_ |
Unicode |
它是跨度的词根。 |
kb_id |
Int |
它表示知识库 ID 的哈希值,该 ID 由跨度引用。 |
kb_id_ |
Unicode |
它表示跨度引用的知识库 ID。 |
ent_id |
Int |
此属性表示标记是其实例的命名实体的哈希值。 |
ent_id_ |
Unicode |
此属性表示标记是其实例的命名实体的字符串 ID。 |
sentiment |
Float |
一个浮点类型标量值,表示跨度的正负性。 |
_ |
Underscore |
它代表了用于添加自定义属性扩展的用户空间。 |
Methods
跨度类中使用的方法如下 -
Sr.No. |
Method & Description |
1 |
Span._ init _ 从片段 doc[start : end] 构建跨度对象。 |
2 |
Span._ getitem _ 获取特定位置 n 处的标记对象,其中 n 为整数。 |
3 |
Span._ iter _ 遍历可轻松访问其标注的那些标记对象。 |
4 |
Span._ len _ 获取跨度中标记的数量。 |
5 |
Span.similarity 进行语义相似性估计。 |
6 |
Span.merge 对文档重新标记,将跨度合并成单个标记。 |
ClassMethods
跨度类中使用的类方法如下 -
Sr.No. |
Classmethod & Description |
1 |
Span.set_extension 在跨度上定义自定义属性。 |
2 |
Span.get_extension 通过名称查找以前的扩展。 |
3 |
Span.has_extension 检查扩展名是否已在跨度类上注册。 |
4 |
Span.remove_extension 删除以前在跨度类上注册的扩展名。 |