Hadoop 简明教程

Hadoop - HDFS Operations

Starting HDFS

一开始,您必须格式化配置好的 HDFS 文件系统,打开名称节点(HDFS 服务器),然后执行以下命令。

$ hadoop namenode -format

格式化 HDFS 后,启动分布式文件系统。以下命令将启动名称节点以及作为集群的数据节点。

$ start-dfs.sh

Listing Files in HDFS

将信息加载到服务器后,我们可以使用 ‘ls’ 查找目录中的文件列表、文件状态。以下是 ls 的语法,您可以将其作为参数传递给目录或文件名。

$ $HADOOP_HOME/bin/hadoop fs -ls <args>

Inserting Data into HDFS

假设我们在本地系统中名为 file.txt 的文件中具有数据,该数据应该保存在 hdfs 文件系统中。按照以下步骤将所需文件插入到 Hadoop 文件系统中。

Step 1

您必须创建一个输入目录。

$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/input

Step 2

使用 put 命令将数据文件从本地系统传输并存储到 Hadoop 文件系统。

$ $HADOOP_HOME/bin/hadoop fs -put /home/file.txt /user/input

Step 3

您可以使用 ls 命令验证文件。

$ $HADOOP_HOME/bin/hadoop fs -ls /user/input

Retrieving Data from HDFS

假设我们在 HDFS 中有一个名为 outfile 的文件。以下是从 Hadoop 文件系统中检索所需文件的简单演示。

Step 1

最初,使用 cat 命令从 HDFS 查看数据。

$ $HADOOP_HOME/bin/hadoop fs -cat /user/output/outfile

Step 2

使用 get 命令将文件从 HDFS 获取到本地文件系统。

$ $HADOOP_HOME/bin/hadoop fs -get /user/output/ /home/hadoop_tp/

Shutting Down the HDFS

您可以使用以下命令关闭 HDFS。

$ stop-dfs.sh