Tika 简明教程

TIKA - Environment

本章将指导您完成在 Windows 和 Linux 上设置 Apache Tika 的过程。安装 Apache Tika 时需要进行用户管理。

System Requirements

JDK

Java SE 2 JDK 1.6 或更高版本

Memory

1 GB RAM (recommeneded)

Disk Space

No minimum requirement

Operating System Version

Windows XP 或更高版本、Linux

Step 1: Verifying Java Installation

为验证 Java 安装,打开控制台并执行以下 java 命令:

OS

Task

Command

Windows

Open command console

>java –version

Linux

Open command terminal

$java –version

如果 Java 已在你的系统中正确安装,那么你应该获得以下某个输出,具体取决于你在哪个平台上工作。

OS

Output

Windows

Java version "1.7.0_60"Java ™ SE 运行时环境 (版本 1.7.0_60-b19)Java Hotspot ™ 64 位服务器 VM (版本 24.60-b09,混合模式)

Lunix

java 版本 “1.7.0_25”打开 JDK 运行时环境 (rhel-2.3.10.4.el6_4-x86_64)Open JDK 64 位服务器 VM(内部版本 23.7-b01,混合模式)

  1. 在继续本教程之前,我们假设本教程的读者已在其系统中安装了 Java 1.7.0_60。

  2. 如果您没有 Java SDK,则从 https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed 下载其当前版本。

Step 2: Setting Java Environment

将 JAVA_HOME 环境变量设置为指向 Java 在你的机器上安装到的基本目录位置。例如,

OS

Output

Windows

将环境变量 JAVA_HOME 设置为 C:\ProgramFiles\java\jdk1.7.0_60

Linux

export JAVA_HOME = /usr/local/java-current

将 Java 编译器位置的完整路径附加到系统路径。

OS

Output

Windows

将字符串 C:\Program Files\Java\jdk1.7.0_60\bin 追加到系统变量 PATH 的末尾。

Linux

export PATH = $PATH:$JAVA_HOME/bin/

如上所述,从命令提示符验证命令 java-version。

Step 3: Setting up Apache Tika Environment

程序员可通过以下方式将 Apache Tika 集成到其环境中:

  1. Command line,

  2. Tika API,

  3. Tika 的命令行界面 (CLI),

  4. Tika 的图形用户界面 (GUI),或者

  5. the source code.

对于以上任何一种方法,首先,您必须下载 Tika 的源代码。

您可以在 https://Tika.apache.org/download.html, 中找到 Tika 的源代码,您将在该位置找到两个链接 −

  1. apache-tika-1.6-src.zip − 包含 Tika 的源代码,以及

  2. Tika -app-1.6.jar − 包含 Tika 应用程序的 jar 文件。

下载这两个文件。Tika 的官方网站的截图如下所示。

tika environment

下载这些文件后,设置 jar 文件 tika-app-1.6.jar 的类路径。添加 jar 文件的完整路径,如下表所示。

OS

Output

Windows

将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量 CLASSPATH

Linux

导出 CLASSPATH = $CLASSPATH −/usr/share/jars/Tika-app-1.6.tar −

Apache 提供 Tika 应用程序,即使用 Eclipse 的图形用户界面 (GUI) 应用程序。

Tika-Maven Build using Eclipse

  1. 打开 Eclipse 并创建一个新项目。

  2. 如果您在 Eclipse 中没有 Maven,请按照给定的步骤进行设置。打开 link https://wiki.eclipse.org/M2E_updatesite_and_gittags 。在那里您会发现表格格式的 m2e 插件版本

m2e release
  1. 选择最新版本并将 url 的路径保存在 p2 url 列中。

  2. 现在重新访问 Eclipse,在菜单栏中,单击 Help ,并从下拉菜单中选择 Install New Software

eclipse
  1. 单击 Add 按钮,输入任意所需名称,因为它是可选的。现在将已保存的 url 粘贴在 Location 字段中。

  2. 将添加一个新插件,其名称为您在上一步中选择的名称,选中前面对应的复选框,然后单击 Next

install
  1. 继续安装。完成后,重启 Eclipse。

  2. 现在右击该项目,并在 configure 选项中选择 convert to maven project

  3. 创建新 pom 的一个新向导出现。输入 Group Id 为 org.apache.tika,输入最新版本的 Tika,选择 packaging 作为 jar,然后单击 Finish

Maven 项目已成功安装,您的项目已转换为 Maven。现在,您必须配置 pom.xml 文件。

Configure the XML File

下面显示的是 Apache Tika 的完整 Maven 依赖项。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>