HyperAIHyperAI
Back to Headlines

OpenZL: Open-Source-Compressor für strukturierte Daten mit hoher Effizienz

vor 4 Tagen

OpenZL ist ein neu veröffentlichtes, quelloffenes Framework für strukturbezogene Datenkompression, das verlustfreie Komprimierung für tabellarische, vektorielle und hierarchische Daten bietet. Im Gegensatz zu herkömmlichen Kompressoren wie Zstandard oder xz nutzt OpenZL eine adaptiv konfigurierbare Sequenz von Transformationen, die die zugrunde liegende Struktur der Daten explizit ausnutzen. Der Schlüssel liegt darin, dass Benutzer die Datenstruktur – etwa durch eine einfache Formatbeschreibung (SDDL) oder einen benutzerdefinierten Parser – bereitstellen. Daraufhin generiert ein Offline-Trainer eine optimierte Kompressionskonfiguration („Plan“), die während der Kompression in eine konkrete, in den Frame eingebettete Ausführungsreihenfolge („Resolved Graph“) umgewandelt wird. Der universelle Dekompressor, der immer derselbe bleibt, liest diese Reihenfolge aus und führt sie aus – ohne zusätzliche Metadaten oder externe Abhängigkeiten. In Benchmarktests auf einem M1-Prozessor zeigt OpenZL deutliche Vorteile: Bei der Komprimierung der Datei sao aus dem Silesia-Korpus erreicht es eine Kompressionsrate von x2,06, was deutlich besser ist als Zstandard (x1,31) und xz (x1,64), und zwar bei einer Kompressionsgeschwindigkeit von 340 MB/s (gegenüber 220 MB/s bei Zstandard) und einer Dekompressionsgeschwindigkeit von 1.200 MB/s (gegenüber 850 MB/s bei Zstandard). Diese Leistung beruht auf einer strukturbasierten Vorgehensweise: Die Daten werden in Felder aufgeteilt („structure of arrays“), jedes Feld wird separat optimiert, und die Trainer-Phase findet für jedes Feld die beste Kombination aus Transformationen und Codierungsstrategien. Ein zentraler Vorteil von OpenZL ist die Kombination von Format-Spezialisierung und Betriebssicherheit. Während traditionelle Format-spezifische Kompressoren zu Fragmentierung führen – mit vielen verschiedenen Binaries, Audit-Last und Patch-Komplexität – bleibt bei OpenZL der Dekompressor einheitlich. Änderungen an der Kompressionsstrategie (z. B. durch Neutrainings) wirken sich nur auf die Kompression aus, nicht auf die Dekompression. Alte Daten bleiben weiterhin lesbar, neue Daten profitieren von verbesserten Plänen – eine ideale Architektur für Datenzentren und kontinuierliche Systeme. OpenZL ist besonders effektiv bei strukturierten Daten wie Timeseries, ML-Tensoren, Datenbanktabellen oder Parquet-Dateien. Bei reinen Textdateien wie enwik oder dickens, wo wenig Struktur vorliegt, fällt es auf Zstandard zurück – ohne Leistungseinbuße. Die Kompression bleibt also immer sicher und unterbaut durch Zstandard. Die Flexibilität wird durch eine erweiterte Transform-Bibliothek und kontinuierliche Verbesserungen im Trainer-System gestärkt, der künftig auch komplexe, verschachtelte Datenformate besser unterstützen soll. Industrieinsider loben OpenZL als Meilenstein in der Datenkompression: „Es löst das Dilemma zwischen Performance und Wartbarkeit“, so ein Experte von einem Cloud-Anbieter. Meta, der Entwickler, setzt OpenZL bereits in großen Skalierungsumgebungen ein, insbesondere im Kontext von Managed Compression, wo automatisierte, datenbasierte Optimierungen laufend stattfinden. Die Open-Source-Community wird aktiv zur Weiterentwicklung eingeladen – sei es durch Format-Beiträge, Parser-Optimierungen, Benchmark-Tests oder Engine-Verbesserungen. Mit seiner Kombination aus Automatisierung, Flexibilität und Einheitlichkeit stellt OpenZL eine neue Generation von Kompressionslösungen dar, die sowohl für Forschung als auch industrielle Anwendungen von hohem Nutzen ist.

Related Links