Tika 简明教程
TIKA - Environment
本章将指导您完成在 Windows 和 Linux 上设置 Apache Tika 的过程。安装 Apache Tika 时需要进行用户管理。
System Requirements
JDK |
Java SE 2 JDK 1.6 或更高版本 |
Memory |
1 GB RAM (recommeneded) |
Disk Space |
No minimum requirement |
Operating System Version |
Windows XP 或更高版本、Linux |
Step 1: Verifying Java Installation
为验证 Java 安装,打开控制台并执行以下 java 命令:
OS |
Task |
Command |
Windows |
Open command console |
>java –version |
Linux |
Open command terminal |
$java –version |
如果 Java 已在你的系统中正确安装,那么你应该获得以下某个输出,具体取决于你在哪个平台上工作。
OS |
Output |
Windows |
Java version "1.7.0_60"Java ™ SE 运行时环境 (版本 1.7.0_60-b19)Java Hotspot ™ 64 位服务器 VM (版本 24.60-b09,混合模式) |
Lunix |
java 版本 “1.7.0_25”打开 JDK 运行时环境 (rhel-2.3.10.4.el6_4-x86_64)Open JDK 64 位服务器 VM(内部版本 23.7-b01,混合模式) |
-
在继续本教程之前,我们假设本教程的读者已在其系统中安装了 Java 1.7.0_60。
-
如果您没有 Java SDK,则从 https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed 下载其当前版本。
Step 2: Setting Java Environment
将 JAVA_HOME 环境变量设置为指向 Java 在你的机器上安装到的基本目录位置。例如,
OS |
Output |
Windows |
将环境变量 JAVA_HOME 设置为 C:\ProgramFiles\java\jdk1.7.0_60 |
Linux |
export JAVA_HOME = /usr/local/java-current |
将 Java 编译器位置的完整路径附加到系统路径。
OS |
Output |
Windows |
将字符串 C:\Program Files\Java\jdk1.7.0_60\bin 追加到系统变量 PATH 的末尾。 |
Linux |
export PATH = $PATH:$JAVA_HOME/bin/ |
如上所述,从命令提示符验证命令 java-version。
Step 3: Setting up Apache Tika Environment
程序员可通过以下方式将 Apache Tika 集成到其环境中:
-
Command line,
-
Tika API,
-
Tika 的命令行界面 (CLI),
-
Tika 的图形用户界面 (GUI),或者
-
the source code.
对于以上任何一种方法,首先,您必须下载 Tika 的源代码。
您可以在 https://Tika.apache.org/download.html, 中找到 Tika 的源代码,您将在该位置找到两个链接 −
-
apache-tika-1.6-src.zip − 包含 Tika 的源代码,以及
-
Tika -app-1.6.jar − 包含 Tika 应用程序的 jar 文件。
下载这两个文件。Tika 的官方网站的截图如下所示。
下载这些文件后,设置 jar 文件 tika-app-1.6.jar 的类路径。添加 jar 文件的完整路径,如下表所示。
OS |
Output |
Windows |
将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量 CLASSPATH |
Linux |
导出 CLASSPATH = $CLASSPATH −/usr/share/jars/Tika-app-1.6.tar − |
Apache 提供 Tika 应用程序,即使用 Eclipse 的图形用户界面 (GUI) 应用程序。
Tika-Maven Build using Eclipse
-
打开 Eclipse 并创建一个新项目。
-
如果您在 Eclipse 中没有 Maven,请按照给定的步骤进行设置。打开 link https://wiki.eclipse.org/M2E_updatesite_and_gittags 。在那里您会发现表格格式的 m2e 插件版本
-
选择最新版本并将 url 的路径保存在 p2 url 列中。
-
现在重新访问 Eclipse,在菜单栏中,单击 Help ,并从下拉菜单中选择 Install New Software
-
单击 Add 按钮,输入任意所需名称,因为它是可选的。现在将已保存的 url 粘贴在 Location 字段中。
-
将添加一个新插件,其名称为您在上一步中选择的名称,选中前面对应的复选框,然后单击 Next 。
-
继续安装。完成后,重启 Eclipse。
-
现在右击该项目,并在 configure 选项中选择 convert to maven project 。
-
创建新 pom 的一个新向导出现。输入 Group Id 为 org.apache.tika,输入最新版本的 Tika,选择 packaging 作为 jar,然后单击 Finish 。
Maven 项目已成功安装,您的项目已转换为 Maven。现在,您必须配置 pom.xml 文件。
Configure the XML File
从 https://mvnrepository.com/artifact/org.apache.tika 获得 Tika maven 依赖项
下面显示的是 Apache Tika 的完整 Maven 依赖项。
<dependency>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-core</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
<artifactId> Tika-parsers</artifactId>
<version> 1.6</version>
<groupId> org.apache.Tika</groupId>
<artifactId>Tika</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
< artifactId>Tika-serialization</artifactId>
< version>1.6< /version>
< groupId>org.apache.Tika< /groupId>
< artifactId>Tika-app< /artifactId>
< version>1.6< /version>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-bundle</artifactId>
<version>1.6</version>
</dependency>