Tika 简明教程

TIKA - Referenced API

用户可以使用 Tika facade 类将 Tika 嵌入到他们的应用程序中。它提供了要探索 Tika 所有功能的方法。由于它是一个 facade 类,Tika 会将其函数背后的复杂性抽象化。除此之外,用户还可以在其应用程序中使用各种 Tika 类。

user application

Tika Class (facade)

这是 Tika 库中最突出的一个类,遵循门面设计模式。因此,它抽象了所有内部实现,并提供了访问 Tika 功能的简单方法。下表列出了此类的构造函数及其说明。

package − org.apache.tika

class − Tika

Sr.No.

Constructor & Description

1

Tika () 使用默认配置并构建 Tika 类。

2

Tika (Detector detector) 通过接受检测器实例作为参数创建 Tika facade。

3

Tika (Detector detector, Parser parser) 通过接受检测器和解析器实例作为参数创建 Tika facade。

4

Tika (Detector detector, Parser parser, Translator translator) 通过接受检测器、解析器和翻译器实例作为参数创建 Tika facade。

5

Tika (TikaConfig config) 通过接受 TikaConfig 类作为参数的对象来创建 Tika 门面。

Methods and Description

以下为 Tika 门面类的重要方法 −

Sr.No.

Methods & Description

1

parse*ToString* ( File 文件)此方法及其所有变体解析作为参数传递的文件,并以字符串格式返回提取的文本内容。默认情况下,此字符串参数的长度是有限的。

2

int getMaxStringLength ()返回 parseToString 方法返回的字符串的最大长度。

3

void setMaxStringLength (int maxStringLength)设置 parseToString 方法返回的字符串的最大长度。

4

Reader parse ( File 文件)此方法及其所有变体解析作为参数传递的文件,并返回以 java.io.reader 对象形式提取的文本内容。

5

String detect ( InputStream 流, Metadata 元数据)此方法及其所有变体接受 InputStream 对象和 Metadata 对象作为参数,检测给定文档的类型,并将文档类型名称作为 String 对象返回。此方法抽象了 Tika 使用的检测机制。

6

String translate ( InputStream 文本, String 目标语言)此方法及其所有变体接受 InputStream 对象和表示我们希望文本被翻译成的语言的 String,并将给定文本翻译成所需语言,尝试自动检测源语言。

Parser Interface

这是 Tika 软件包的所有解析器类实现的接口。

package − org.apache.tika.parser

Interface − Parser

Methods and Description

以下是 Tika 解析器接口的重要方法 −

Sr.No.

Methods & Description

1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) 此方法将给定文档解析成 XHTML 和 SAX 事件序列。解析后,它将提取的文档内容放入 ContentHandler 类的对象,并将元数据放入 Metadata 类的对象中。

Metadata Class

此类实现了各种接口,例如 CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializable,以支持各种数据模型。下表列出了该类的构造函数和方法及其说明。

package − org.apache.tika.metadata

class − Metadata

Sr.No.

Constructor & Description

1

Metadata() 构造一个新的、空的元数据。

Sr.No.

Methods & Description

1

add (Property property, String value) 向给定文档中添加一个元数据属性/值映射。使用此函数,我们可以将值设置到某个属性上。

2

add (String name, String value) 向给定文档中添加一个元数据属性/值映射。使用此方法,我们可以将某个新名称值设置到文档的现有元数据中。

3

String get (Property property) 如果有的返回元数据属性的值。

4

String get (String name) 如果有的返回给定元数据名称的值。

5

Date getDate (Property property) 返回日期元数据属性的值。

6

String[] getValues (Property property) 返回元数据属性的所有值。

7

String[] getValues (String name) 返回给定元数据名称的所有值。

8

String[] names() 返回元数据对象中元数据元素的所有名称。

9

set (Property property, Date date) 设置给定元数据属性的日期值

10

set(Property property, String[] values) 为元数据属性设置多个值。

Language Identifier Class

此类标识给定内容的语言。下表列出了此类的构造函数及其说明。

package − org.apache.tika.language

class − Language Identifier

Sr.No.

Constructor & Description

1

LanguageIdentifier (LanguageProfile profile) 实例化语言标识符。在此处,您必须传递 LanguageProfile 对象作为参数。

2

LanguageIdentifier (String content) 此构造函数可以通过从文本内容传递 String 来实例化语言标识。

Sr.No.

Methods & Description

1

String getLanguage () 返回给定 LanguageIdentifier 对象的语言。