Pyspark 简明教程

Discuss PySpark

Apache Spark 是用 Scala 编程语言编写的。为了在 Spark 中支持 Python,Apache Spark 社区发布了一个工具 PySpark。使用 PySpark,您还可以使用 Python 编程语言使用 RDD。这是因为一个名为 Py4j 的库,它可以实现此功能。这是一篇入门教程,介绍了数据驱动文档的基础知识,并解释了如何处理它的各个组件和子组件。