Talend 简明教程
Talend - Big Data
Open Studio with Big data 的标记行是“利用领先的适用于大数据的免费开源 ETL 工具简化 ETL 和 ELT”在这个章节中,我们将了解作为一种在大数据环境中处理数据的工具的 Talend 的用法。
Introduction
Talend Open Studio – 大数据 是一个免费的开源工具,可在大数据环境中轻松处理您的数据。Talend Open Studio 中提供了大量大数据组件,可让您只需简单拖放一些 Hadoop 组件即可创建和运行 Hadoop 作业。
此外,我们无需编写大量 MapReduce 代码,Talend Open Studio 大数据将利用其提供的组件来帮助您完成此项工作。它会自动为生成 MapReduce 代码,您只需要拖放组件并配置一些参数即可。
它还为您提供了连接 Cloudera、HortonWorks、MapR、Amazon EMR,甚至 Apache 等多个大数据分布选项。
Talend Components for Big Data
以下是包含 Big Data 组件类别列表,该列表显示在 Big Data 项下,用于运行大数据环境上的作业:
在 Talend Open Studio 中,大数据连接器和组件的列表如下所示:
-
tHDFSConnection − 用于连接到 HDFS(Hadoop 分布式文件系统)。
-
tHDFSInput − 从给定 hdfs 路径中读取数据,将其放入 talend 模式,然后将其传递给作业中的下一个组件。
-
tHDFSList − 检索给定的 hdfs 路径中的所有文件和文件夹。
-
tHDFSPut − 将文件/文件夹从本地文件系统(用户定义)复制到给定路径的 hdfs。
-
tHDFSGet - 从 hdfs 复制文件/文件夹到指定路径的本地文件系统(用户定义)。
-
tHDFSDelete - 从 HDFS 删除文件。
-
tHDFSExist - 检查文件是否存在于 HDFS 上。
-
tHDFSOutput - 在 HDFS 上写数据流。
-
tCassandraConnection - 打开与卡桑德拉服务器的连接。
-
tCassandraRow - 对指定的数据库运行 CQL(Cassandra 查询语言)查询。
-
tHBaseConnection - 打开与 HBase 数据库的连接。
-
tHBaseInput - 从 HBase 数据库读取数据。
-
tHiveConnection - 打开与 Hive 数据库的连接。
-
tHiveCreateTable - 在 hive 数据库中创建一个表。
-
tHiveInput - 从 hive 数据库读取数据。
-
tHiveLoad - 将数据写入 hive 表或指定目录。
-
tHiveRow - 对指定的数据库运行 HiveQL 查询。
-
tPigLoad - 将输入数据加载到输出流。
-
tPigMap - 用于在 pig 进程中转换和路由数据。
-
tPigJoin - 基于连接键执行两个文件的连接操作。
-
tPigCoGroup - 对来自多个输入的数据进行分组和聚合。
-
tPigSort - 基于一个或多个定义的排序键对给定的数据进行排序。
-
tPigStoreResult - 在定义的存储空间中存储来自 pig 操作的结果。
-
tPigFilterRow − 根据给定的条件过滤指定列以拆分数据。
-
tPigDistinct − 从关系中删除重复元组。
-
tSqoopImport − 从数据库关系(如 MySQL、Oracle DB)将数据传输到 HDFS。
-
tSqoopExport − 从 HDFS 将数据传输到数据库关系(如 MySQL、Oracle DB)