MLIC: Multi-Reference Entropy Modell für gelernte Bildkompression

Kürzlich wurden erstaunliche Leistungen bei der lernbasierten Bildkompression erzielt. Das Entropiemodell, das die Verteilung der latente Darstellung schätzt, spielt eine entscheidende Rolle bei der Verbesserung der Rate-Distortion-Leistung. Allerdings erfassen die meisten Entropiemodelle nur Korrelationen in einer Dimension, während die latente Darstellung Kanal-weise, lokale räumliche und globale räumliche Korrelationen enthält. Um dieses Problem anzugehen, schlagen wir das Multi-Reference-Entropiemodell (MEM) und die erweiterte Version MEM$^+$ vor. Diese Modelle erfassen die verschiedenen Arten von Korrelationen in der latente Darstellung. Genauer gesagt, teilen wir zunächst die latente Darstellung in Slices auf. Beim Dekodieren des aktuellen Slices nutzen wir bereits dekodierte Slices als Kontext und verwenden die Aufmerksamkeitskarte des bereits dekodierten Slices, um globale Korrelationen im aktuellen Slice vorherzusagen. Um lokale Kontexte zu erfassen, führen wir zwei verbesserte Schachbrett-Kontext-Aufnahme-Techniken ein, die eine Leistungseinbuße vermeiden. Auf Basis von MEM und MEM$^+$ entwickeln wir die Bildkompressionsmodelle MLIC und MLIC$^+$. Umfassende experimentelle Evaluierungen zeigen, dass unsere MLIC- und MLIC$^+$-Modelle state-of-the-art-Leistung erreichen und die BD-Rate im Vergleich zu VTM-17.0 auf dem Kodak-Datensatz um 8,05 % und 11,39 % im PSNR-Maß reduzieren. Unser Code ist unter https://github.com/JiangWeibeta/MLIC verfügbar.