はじめに Amazon Redshift Spectrum や Amazon Athena は、いかにスキャンデータ量を少なくするかが重要です。その理由は、スキャンデータ量を少なくすることによってコストを削減するだけでなく、パフォーマンスも改善するからです。一般的なRDBのレンジスキャン、Amazon Redshiftのゾーンマップによるスキャンと同様です。スキャンデータ量を少なくするには様々なアプローチがありますが、Amazon Redshift Spectrum や Amazon Athenaにおいてスキャン対象のデータを削減するには、データを事前にパーティションして、条件に基づいてスキャンするパーティションを削減します。今回は、AWS Glueを用いてパフォーマンス向上やコスト最適化するカラム名ありパーティションのデータに変換するETLコードを作成する方法をご紹介します。 パーティシ
![AWS Glueを用いてパフォーマンス向上やコスト最適化するカラム名ありパーティションのデータに変換するETLコードを作成する | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/c164bd91517ea39e7a9113a12a0c797e8c59e0a6/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2016%2F12%2Feyecatch_glue.png)