Back to Headlines

Meta推出开源数据压缩框架OpenZL,引领高效数据压缩新范式

4 天前

Meta正式推出开源数据压缩框架OpenZL,旨在为结构化数据提供高性能、高效率的无损压缩方案。OpenZL通过显式识别数据结构,结合可配置的变换序列,揭示隐藏的数据规律,从而实现远超通用压缩器的压缩比,同时保持极快的压缩与解压速度。 与传统压缩工具(如Zstandard、xz)依赖“通用策略”不同,OpenZL将数据格式作为输入参数,通过一个离线训练器自动优化压缩配置。用户只需提供数据结构描述(如使用SDDL语言或自定义解析器),系统即可生成专属压缩计划(Plan),并在编码时将其转化为可嵌入数据帧的“解压指令图”。解压端仅需一个统一的解压器,无需针对不同格式维护多个解压程序。 在实际测试中,OpenZL在处理结构化数据时表现卓越。例如,对Silesia压缩语料库中的星表数据(sao)进行压缩,OpenZL的压缩比达到2.06倍,远超Zstandard(1.31倍)和xz(1.64倍),压缩速度达340 MB/s,解压速度达1200 MB/s,显著优于xz,且快于Zstandard。 OpenZL的核心优势在于“统一解压器”设计:无论压缩配置如何变化,解压器无需更新,旧数据仍可正常解压,新数据可获得更高压缩效率。这极大简化了运维,提升了安全性与可审计性,也支持全系统范围的性能升级。 该框架还支持运行时自适应:通过控制点(control points)在压缩时动态判断数据特征(如字符串重复率、数值分布等),选择最优压缩路径,避免无限制搜索,确保速度稳定。 OpenZL适用于向量、表格、树状结构等具有明确格式的数据,如时间序列、机器学习张量、数据库表等。对于无结构的纯文本(如enwik、dickens),OpenZL会自动回退至Zstandard,性能与之相当。 目前OpenZL已开源,开发者可通过GitHub获取代码、文档与示例。项目正持续扩展支持的变换类型、优化训练效率,并增强对嵌套结构的描述能力。社区可参与贡献:测试新格式、优化编码器、设计新控制点或提交基准测试数据。 Meta认为,OpenZL为数据压缩领域开辟了新方向——在保持系统统一性的同时,实现接近专用压缩器的性能。未来,它有望成为大规模数据处理与AI训练中不可或缺的基础设施。

Related Links