在Python中,可以使用PySpark库来并行写入多个Parquet文件。下面是一个示例代码:
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder \
.appName("Parallel Write Parquet") \
.getOrCreate()
# 加载数据为DataFrame
data = spark.read.csv("input.csv", header=True, inferSchema=True)
# 拆分数据为多个分区
data_partitions = data.repartition(5)
# 并行写入多个Parquet文件
data_partitions.write \
.option("compression", "snappy") \
.parquet("output.parquet")
# 关闭SparkSession
spark.stop()
在上面的代码中,我们首先创建了一个SparkSession对象。然后,使用spark.read.csv()
方法加载数据为DataFrame。接下来,我们将数据拆分为多个分区,这可以通过使用repartition()
方法来实现。然后,我们使用write.parquet()
方法并传递输出路径来并行写入多个Parquet文件。最后,我们关闭了SparkSession。
请注意,我们还可以使用option()
方法来设置写入Parquet文件的选项,例如压缩算法。在上面的示例中,我们使用了Snappy压缩算法。
上一篇:并行下载文件的分叉进程
下一篇:并行写入内存映射文件