要将 Spark DataFrame 保存为 Parquet 文件,可以使用 write.parquet()
方法。下面是一个示例代码:
from pyspark.sql import SparkSession
# 创建 SparkSession 对象
spark = SparkSession.builder.appName("Save DataFrame as Parquet").getOrCreate()
# 创建示例 DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
# 将 DataFrame 保存为 Parquet 文件
df.write.parquet("path/to/parquet/file")
在上面的示例中,首先创建了一个 SparkSession 对象,然后使用 createDataFrame()
方法创建了一个示例 DataFrame。接下来,使用 write.parquet()
方法将 DataFrame 保存为 Parquet 文件,指定了保存路径。
注意,write.parquet()
方法还可以接受其他参数,例如 mode
(保存模式,默认为 "error")、compression
(压缩格式,默认为 "none")等,可以根据需要进行配置。