Tika 简明教程

TIKA - File Formats

File Formats Supported by Tika

下表显示了 Tika 支持的文件格式。

File format

Package Library

Class in Tika

XML

org.apache.tika.parser.xml

XMLParser

HTML

org.apache.tika.parser.html 并且它使用 Tagsoup 库

HtmlParser

MS-Office 复合文档 Ole2 直到 2007 年,2007 年以后为 ooxml

org.apache.tika.parser.microsoftorg.apache.tika.parser.microsoft.ooxml 并且它使用 Apache Poi 库

OfficeParser(ole2) OOXMLParser (ooxml)

OpenDocument Format openoffice

org.apache.tika.parser.odf

OpenOfficeParser

portable Document Format(PDF)

org.apache.tika.parser.pdf 并且此包使用 Apache PdfBox 库

PDFParser

电子出版格式(数字图书)

org.apache.tika.parser.epub

EpubParser

Rich Text format

org.apache.tika.parser.rtf

RTFParser

Compression and packaging formats

org.apache.tika.parser.pkg 并且此包使用 Common compress 库

PackageParser 和 CompressorParser 及其子类

Text format

org.apache.tika.parser.txt

TXTParser

Feed and syndication formats

org.apache.tika.parser.feed

FeedParser

Audio formats

org.apache.tika.parser.audio and org.apache.tika.parser.mp3

AudioParser MidiParser Mp3 - 用于 mp3parser

Imageparsers

org.apache.tika.parser.jpeg

JpegParser-for jpeg images

Videoformats

org.apache.tika.parser.mp4 和 org.apache.tika.parser.video 此解析器在内部使用 Simple Algorithm 来解析 flash video 格式

Mp4parser FlvParser

java 类文件和 jar 文件

org.apache.tika.parser.asm

ClassParser CompressorParser

Mobxformat (email messages)

org.apache.tika.parser.mbox

MobXParser

Cad formats

org.apache.tika.parser.dwg

DWGParser

FontFormats

org.apache.tika.parser.font

TrueTypeParser

executable programs and libraries

org.apache.tika.parser.executable

ExecutableParser