Spark Sql 简明教程

Spark SQL - Data Sources

一个数据帧接口允许不同的数据源在 Spark SQL 上运行。这是一个临时表,可以作为普通 RDD 进行操作。将数据帧注册为表格可让你对其数据运行 SQL 查询。

在本章中,我们将介绍使用不同 Spark 数据源加载和保存数据的一般方法。然后,我们将详细讨论内置数据源的可用特定选项。

SparkSQL 中有不同的数据源类型,其中一些列在下面:

Sr. No

Data Sources

1

JSON Datasets Spark SQL 可以自动捕获 JSON 数据集的模式并将其加载为数据帧。

2

Hive Tables Hive 随 HiveContext 与 Spark 库捆绑在一起,该库继承自 SQLContext。

3

Parquet Files Parquet 是一种由许多数据处理系统支持的列格式。