Appearance
Apache Parquet
Apache Parquet — это формат файлов данных с открытым исходным кодом, ориентированный на столбцы, разработанный для эффективного хранения и извлечения данных. Он обеспечивает высокопроизводительные схемы сжатия и кодирования для обработки сложных данных в больших объемах и поддерживается многими языками программирования и аналитическими инструментами.
Производительность
Внутренняя реализация формата выполнена на С++ что позволяет достичь впечатляющих показателей скорости обработки и значительно снижает нагрузки как на ЦП так и на подсистемы ввода вывода.
Назначение
Apache Parquet изначально разрабатывался для обмена данными в высоконагруженных системах BigData.
Apache Parquet глубоко интегрирован с библиотекой Apache Arrow предназначенной для обработи и анализа больших объемов информации "In memory".
Открытый код
Apache Parquet является Open Source проектом. Разработка ведется совместно с пакетом Apache Arrow.
Проект поддерживается Apache Software Foundation и активно используется в различных системах обработки данных.