要在AWS EMR Spark的工作节点上创建文件,您可以使用以下代码示例:
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("Create File").getOrCreate()
# 创建一个DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
# 将DataFrame保存为CSV文件
df.write.csv("s3://your-bucket-name/path/to/file.csv")
# 关闭SparkSession
spark.stop()
上述代码示例使用了PySpark来创建SparkSession,并创建了一个DataFrame。然后,将DataFrame保存为CSV文件,文件路径指定为s3://your-bucket-name/path/to/file.csv
。您需要将your-bucket-name
替换为您的S3存储桶名称,以及path/to/file.csv
替换为您想要保存文件的路径。
请注意,您需要在EMR集群上正确配置S3访问权限,以便将文件保存到S3存储桶中。