HyperAI超神经

Meta正式推出开源数据压缩框架OpenZL，旨在为结构化数据提供高性能、高效率的无损压缩方案。OpenZL通过显式识别数据结构，结合可配置的变换序列，揭示隐藏的数据规律，从而实现远超通用压缩器的压缩比，同时保持极快的压缩与解压速度。与传统压缩工具（如Zstandard、xz）依赖“通用策略”不同，OpenZL将数据格式作为输入参数，通过一个离线训练器自动优化压缩配置。用户只需提供数据结构描述（如使用SDDL语言或自定义解析器），系统即可生成专属压缩计划（Plan），并在编码时将其转化为可嵌入数据帧的“解压指令图”。解压端仅需一个统一的解压器，无需针对不同格式维护多个解压程序。在实际测试中，OpenZL在处理结构化数据时表现卓越。例如，对Silesia压缩语料库中的星表数据（sao）进行压缩，OpenZL的压缩比达到2.06倍，远超Zstandard（1.31倍）和xz（1.64倍），压缩速度达340 MB/s，解压速度达1200 MB/s，显著优于xz，且快于Zstandard。 OpenZL的核心优势在于“统一解压器”设计：无论压缩配置如何变化，解压器无需更新，旧数据仍可正常解压，新数据可获得更高压缩效率。这极大简化了运维，提升了安全性与可审计性，也支持全系统范围的性能升级。该框架还支持运行时自适应：通过控制点（control points）在压缩时动态判断数据特征（如字符串重复率、数值分布等），选择最优压缩路径，避免无限制搜索，确保速度稳定。 OpenZL适用于向量、表格、树状结构等具有明确格式的数据，如时间序列、机器学习张量、数据库表等。对于无结构的纯文本（如enwik、dickens），OpenZL会自动回退至Zstandard，性能与之相当。目前OpenZL已开源，开发者可通过GitHub获取代码、文档与示例。项目正持续扩展支持的变换类型、优化训练效率，并增强对嵌套结构的描述能力。社区可参与贡献：测试新格式、优化编码器、设计新控制点或提交基准测试数据。 Meta认为，OpenZL为数据压缩领域开辟了新方向——在保持系统统一性的同时，实现接近专用压缩器的性能。未来，它有望成为大规模数据处理与AI训练中不可或缺的基础设施。

Meta推出开源数据压缩框架OpenZL，引领高效数据压缩新范式

Related Links