Skip to content

Apache Parquet

Apache Parquet — это формат файлов данных с открытым исходным кодом, ориентированный на столбцы, разработанный для эффективного хранения и извлечения данных. Он обеспечивает высокопроизводительные схемы сжатия и кодирования для обработки сложных данных в больших объемах и поддерживается многими языками программирования и аналитическими инструментами.

См. parquet.apache.org

Производительность

Внутренняя реализация формата выполнена на С++ что позволяет достичь впечатляющих показателей скорости обработки и значительно снижает нагрузки как на ЦП так и на подсистемы ввода вывода.

Назначение

Apache Parquet изначально разрабатывался для обмена данными в высоконагруженных системах BigData.
Apache Parquet глубоко интегрирован с библиотекой Apache Arrow предназначенной для обработи и анализа больших объемов информации "In memory".

Открытый код

Apache Parquet является Open Source проектом. Разработка ведется совместно с пакетом Apache Arrow.
Проект поддерживается Apache Software Foundation и активно используется в различных системах обработки данных.