Parquetはfooterのmetadataにlengthとoffsetが記載されてて圧縮もcolumn単位なので集計に必要なカラムをseekで取り出せる省設計。DuckDBはS3から取得する際もRangeヘッダー対応で必要な部分だけ取ってる模様。すごく良いよね
---
Parquetフォーマット概観 - 発明のための再発明
https://mrasu.hatenablog.jp/entry/2024/09/22/190000
#bookmarks
Parquetはfooterのmetadataにlengthとoffsetが記載されてて圧縮もcolumn単位なので集計に必要なカラムをseekで取り出せる省設計。DuckDBはS3から取得する際もRangeヘッダー対応で必要な部分だけ取ってる模様。すごく良いよね
---
Parquetフォーマット概観 - 発明のための再発明
https://mrasu.hatenablog.jp/entry/2024/09/22/190000
#bookmarks