下面是一个使用AWS Glue爬虫读取一个只有单列的文件的代码示例:
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
# 创建SparkContext
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
# 读取单列文件
datasource = glueContext.create_dynamic_frame.from_catalog(database = "your_database_name", table_name = "your_table_name")
# 打印数据
datasource.printSchema()
datasource.show()
# 提交作业
job.commit()
以上代码中的"your_database_name"和"your_table_name"需要替换为实际的数据库名称和表名称。此代码将读取指定的数据源,并使用AWS Glue的动态帧功能打印数据。