AWS Glue作业执行器在Shuffle写操作（将parquet写入S3）期间死亡。_编程开发

AWS Glue作业执行器在Shuffle写操作（将parquet写入S3）期间死亡。

创始人

2024-11-16 09:01:27

0次

当AWS Glue作业执行器在Shuffle写操作期间死亡时，可以尝试以下解决方法：

增加作业执行器的内存限制：在作业执行器的参数中增加--executor-memory选项，增加内存限制的大小。例如，--executor-memory 4g将内存限制设置为4GB。
调整Shuffle内存占用：根据作业执行器的内存限制和作业的数据量，调整Shuffle内存占用的大小。可以通过修改spark.sql.shuffle.partitions和spark.shuffle.memoryFraction参数来控制Shuffle内存占用。例如，将spark.sql.shuffle.partitions设置为较小的值（如200）以减少每个分区的内存消耗，并将spark.shuffle.memoryFraction设置为较小的值（如0.4）以限制Shuffle内存占用。
增加作业执行器的超时时间：在作业执行器的参数中增加--driver-memory选项，增加作业执行器的超时时间。例如，--driver-memory 4g将超时时间设置为4GB。这样可以避免作业执行器在Shuffle写操作期间因为超时而死亡。

以下是一个示例代码演示如何在AWS Glue作业中使用上述解决方法：

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from pyspark.sql import SparkSession

# 获取作业参数
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

# 创建SparkSession
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

# 调整Shuffle内存占用
spark.conf.set("spark.sql.shuffle.partitions", "200")
spark.conf.set("spark.shuffle.memoryFraction", "0.4")

# 创建DataFrame
inputData = [('Alice', 25), ('Bob', 30), ('Charlie', 35)]
df = spark.createDataFrame(inputData, ['Name', 'Age'])

# 写入parquet文件到S3
df.write.parquet("s3://your-bucket/path/to/parquet")

# 增加作业执行器的内存限制和超时时间
spark.sparkContext.getConf().set("spark.executor.memory", "4g")
spark.sparkContext.getConf().set("spark.driver.memory", "4g")

# 执行作业
spark.sql("SELECT * FROM your_table").show()

# 停止SparkSession
spark.stop()

请注意，以上代码示例是基于AWS Glue的Python shell作业。根据您的具体情况，可能需要进行适当的调整和修改。

上一篇：AWS Glue作业在向S3写入时出现访问被拒绝的问题。

下一篇：AWS Glue作业中打开文件过多

AWS Glue作业执行器在Shuffle写操作（将parquet写入S3）期间死亡。

相关内容

热门资讯