在读取Parquet文件时,使用pyarrow库提供的选项指定布尔列的编码类型。
示例代码:
import awswrangler as wr
import pyarrow.parquet as pq
import pyarrow as pa
# 读取Parquet文件并指定布尔列的编码类型
table = pq.read_table(
's3://bucket/path/to/parquet/file.parquet',
filesystem=wr.s3._fs,
use_pandas_metadata=True,
read_dictionary=['bool_column'],
arrow_options={'bool_type': pa.bool_()}
)
# 将Table转换为DataFrame
df = table.to_pandas()