OpenZL登場:構造を活かしたオープンソース圧縮フレームワークで、高速かつ高圧縮比を実現
Metaが新たに公開したオープンソースデータ圧縮フレームワーク「OpenZL」は、構造化データに特化した高効率な損失なし圧縮技術を提供する。従来の汎用圧縮ツール(zstdやxz)に比べ、圧縮率を大幅に向上しつつ、圧縮・展開速度も高速化を実現。特に、データの構造(例:テーブル形式、列指向、列挙値、範囲制限など)を明示的に認識することで、内部で複数の変換ステップを最適に組み合わせ、隠れたパターンを可視化し、効果的な圧縮を実現する。 OpenZLの特徴は、圧縮設定を「構造の説明(SDDLやパーサ関数)」と「オフライントレーナーによる最適化計画生成」で行い、圧縮時にその計画を「解決済みグラフ」としてフレームに埋め込む点にある。これにより、同じユニバーサルデコンプレッサーで、すべての形式のデータを解凍可能。構造が変化しても、トレーナーで再学習し、新しい計画を展開するだけで、デコーダーの変更不要。旧データも正常に復元されるため、運用面での負担が極めて低い。 実測データでは、Silesiaコーパスの「sao」ファイル(星のデータテーブル)を対象に、OpenZLはzstdより2.06倍の圧縮率を達成。圧縮速度は340MB/s(zstd: 220MB/s)、展開速度は1.2GB/s(zstd: 850MB/s)と、速度面でも優位。同様に、数値列データ(ERA5 Flux)、Parquet、CSV形式のデータでも、構造を活かした圧縮が可能。ただし、構造が不明な純テキスト(enwikなど)では、zstdにフォールバックし、性能は同等。 OpenZLは、データ構造の変化に対応する「ランタイム制御ポイント」も備え、統計情報を基に動的に最適な圧縮パスを選択。これにより、バーストや異常値への対応が可能でありながら、処理速度の低下を防ぐ。 Metaは、今後も時間系列データやグリッドデータ向けの変換ライブラリ拡張、トレーナーの高速化、SDDLの拡張を進める。コミュニティからのデータフォーマット提供やコード最適化、ベンチマーク追加も歓迎。OpenZLは、構造を活かした圧縮の未来を切り開く、オープンソースの基盤となる可能性を秘めている。