Apache Tajo 简明教程

Apache Tajo - Configuration Settings

Tajo 的配置基于 Hadoop 的配置系统。本章详细说明了 Tajo 配置设置。

Basic Settings

Tajo 使用以下两个配置文件 -

  1. catalog-site.xml - 目录服务器的配置。

  2. tajo-site.xml - 其他 Tajo 模块的配置。

Distributed Mode Configuration

分布式模式设置在 Hadoop 分布式文件系统 (HDFS) 上运行。让我们按照步骤配置 Tajo 分布式模式设置。

tajo-site.xml

此文件可在 /path/to/tajo/conf 目录中获取,可作为其他 Tajo 模块的配置。要以分布式模式访问 Tajo,请对 “tajo-site.xml” 应用以下更改。

<property>
   <name>tajo.rootdir</name>
   <value>hdfs://hostname:port/tajo</value>
</property>

<property>
   <name>tajo.master.umbilical-rpc.address</name>
   <value>hostname:26001</value>
</property>

<property>
   <name>tajo.master.client-rpc.address</name>
   <value>hostname:26002</value>
</property>

<property>
   <name>tajo.catalog.client-rpc.address</name>
   <value>hostname:26005</value>
</property>

Master Node Configuration

Tajo 将 HDFS 用作主要的存储类型。其配置如下,且应当将其添加到 “tajo-site.xml” 中。

<property>
   <name>tajo.rootdir</name>
   <value>hdfs://namenode_hostname:port/path</value>
</property>

Catalog Configuration

如果您要自定义目录服务,请将 $path/to/Tajo/conf/catalogsite.xml.template 复制到 $path/to/Tajo/conf/catalog-site.xml 中,并根据需要添加任何以下配置。

例如,如果您使用 “Hive catalog store” 访问 Tajo,则其配置应如下所示 −

<property>
   <name>tajo.catalog.store.class</name>
   <value>org.apache.tajo.catalog.store.HCatalogStore</value>
</property>

如果您需要存储 MySQL 目录,则应用以下更改 −

<property>
   <name>tajo.catalog.store.class</name>
   <value>org.apache.tajo.catalog.store.MySQLStore</value>
</property>

<property>
   <name>tajo.catalog.jdbc.connection.id</name>
   <value><mysql user name></value>
</property>

<property>
   <name>tajo.catalog.jdbc.connection.password</name>
   <value><mysql user password></value>
</property>

<property>
   <name>tajo.catalog.jdbc.uri</name>
   <value>jdbc:mysql://<mysql host name>:<mysql port>/<database name for tajo>
      ?createDatabaseIfNotExist = true</value>
</property>

同样,您可以在此配置文件中注册 Tajo 支持的其他目录。

Worker Configuration

默认情况下,TajoWorker 将临时数据存储在本地文件系统中。它在 “tajo-site.xml” 文件中定义,如下所示 −

<property>
   <name>tajo.worker.tmpdir.locations</name>
   <value>/disk1/tmpdir,/disk2/tmpdir,/disk3/tmpdir</value>
</property>

要增加每个工作程序资源运行任务的能力,请选择以下配置 −

<property>
   <name>tajo.worker.resource.cpu-cores</name>
   <value>12</value>
</property>

<property>
   <name>tajo.task.resource.min.memory-mb</name>
   <value>2000</value>
</property>

<property>
   <name>tajo.worker.resource.disks</name>
   <value>4</value>
</property>

要让 Tajo 服务器以专用的模式运行,请选择以下配置 −

<property>
   <name>tajo.worker.resource.dedicated</name>
   <value>true</value>
</property>