MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned Image Compression

Die latente Darstellung in gelernter Bildkompression umfasst kanalweise, lokale räumliche und globale räumliche Korrelationen, die für das Entropiemodell entscheidend sind, um die bedingte Entropie zu minimieren. Die effiziente Erfassung dieser Kontexte innerhalb eines einzigen Entropiemodells stellt insbesondere bei der Kodierung hochauflösender Bilder eine Herausforderung dar, da die bestehenden Module zur Erfassung globaler Kontexte eine hohe Rechenkomplexität aufweisen. Um dieser Herausforderung zu begegnen, schlagen wir das Entropiemodell mit linearer Komplexität und mehreren Referenzen (MEM$^{++}$) vor. Konkret wird die latente Darstellung in mehrere Slices aufgeteilt. Für kanalweise Kontexte dienen bereits komprimierte Slices als Kontext für die Kompression eines bestimmten Slices. Für lokale Kontexte führen wir ein auf versetzten Fenstern basierendes Checkerboard-Attention-Modul ein, das eine lineare Komplexität gewährleistet, ohne die Leistungseinbußen in Kauf zu nehmen. Für globale Kontexte schlagen wir eine lineare Komplexitäts-Attention-Mechanismus vor, der globale Korrelationen durch Dekomposition der Softmax-Operation erfasst und somit die implizite Berechnung von Attention-Karten aus bereits decodierten Slices ermöglicht. Unter Verwendung von MEM$^{++}$ als Entropiemodell entwickeln wir die Bildkompressionsmethode MLIC$^{++}$. Ausführliche experimentelle Ergebnisse zeigen, dass MLIC$^{++}$ eine state-of-the-art-Leistung erzielt und gegenüber VTM-17.0 im Peak Signal-to-Noise Ratio (PSNR) den BD-Rate um $13,39\%$ reduziert, gemessen am Kodak-Datensatz. Darüber hinaus weist MLIC$^{++}$ eine lineare Rechenkomplexität und Speicherkonsum mit der Auflösung auf, was es besonders geeignet für die Kodierung hochauflösender Bilder macht. Der Quellcode und vortrainierte Modelle sind unter https://github.com/JiangWeibeta/MLIC verfügbar. Das Trainingsdatenset ist über https://huggingface.co/datasets/Whiteboat/MLIC-Train-100K zugänglich.