Hcatalog 简明教程
HCatalog - Introduction
What is HCatalog?
HCatalog 是 Hadoop 的表存储管理工具。它向其他 Hadoop 应用程序公开 Hive 元存储的表格数据。它使用户能够使用不同的数据处理工具(Pig、MapReduce)轻松地将数据写到网格中。它确保用户不必担心数据存储在何处或以何种格式存储。
HCatalog 作为一个 Hive 的关键组件,使用户可以存储任何格式和任何结构的数据。
Why HCatalog?
Enabling right tool for right Job
Hadoop 生态系统包含用于数据处理的不同工具,例如 Hive、Pig 和 MapReduce。虽然这些工具不需要元数据,但是当元数据存在时,它们仍然可以从中受益。共享元数据存储还使跨工具的用户能够更轻松地共享数据。一种非常常见的工作流程是使用 MapReduce 或 Pig 加载和规范化数据,然后通过 Hive 进行分析。如果所有这些工具共享一个元存储,那么每个工具的用户都可以立即访问使用另一个工具创建的数据。无需加载或传输步骤。
HCatalog Architecture
下图显示了 HCatalog 的整体架构。
HCatalog 支持为可以使用 SerDe (序列化器-反序列化器)编写的任何格式读写文件。默认情况下,HCatalog 支持 RCFile、CSV、JSON、SequenceFile 和 ORC 文件格式。要使用自定义格式,您必须提供 InputFormat、OutputFormat 和 SerDe。
HCatalog 建立在 Hive 元存储之上,并结合了 Hive 的 DDL。HCatalog 为 Pig 和 MapReduce 提供了读写接口,并使用 Hive 的命令行界面来发布数据定义和元数据探索命令。