列式存储格式
Apache Parquet
列式存储格式具有以下特征,使其适合用于 Athena:
-
按列压缩,针对列数据类型选择压缩算法,可以节省 Amazon S3 中的存储空间,并减少查询处理期间的磁盘空间和输入/输出。
-
Parquet and ORC 中的谓词下推使得 Athena 查询可以只提取所需的数据块,从而提高查询性能。当 Athena 查询从您的数据获取特定列值时,它使用来自数据块谓词的统计信息(例如最大/最小值)来确定读取还是跳过改数据块。
-
Parquet 和 ORC 中的数据拆分使得 Athena 可以将数据读取拆分为多个读进程,在查询处理期间增加并行度。
要将现有原始数据从其他存储格式转换为 Parquet 或 ORC,您可以在 Athena 中运行 CREATE TABLE AS SELECT (CATS)查询,并将数据存储格式指定为 Parquet 或 ORC,或使用 Amazon Glue 爬网程序。