Region-Adaptiveer Transform mit Segmentierungsvorwissen für die Bildkompression

Lernende Bildkompression (Learned Image Compression, LIC) hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Bisherige Ansätze verwenden häufig CNN-basierte oder selbst-Attention-basierte Module als Transformationsmethoden für die Kompression. Es gibt jedoch bisher keine Forschung, die sich speziell auf neuronale Transformationen konzentriert, die bestimmte Bildregionen berücksichtigen. Daraufhin führen wir klassenunabhängige Segmentierungsmasken (d. h. semantische Masken ohne Kategorielabel) ein, um regionenadaptive kontextuelle Informationen zu extrahieren. Unser vorgeschlagenes Modul, das Region-Adaptive Transform, wendet adaptive Faltungen auf verschiedene Regionen an, wobei die Masken als Leitfaden dienen. Zudem stellen wir ein plug-and-play-Modul namens Scale Affine Layer vor, das reichhaltige Kontextinformationen aus verschiedenen Regionen integriert. Obwohl es frühere Ansätze zur Bildkompression gibt, die Segmentierungsmasken als zusätzliche Zwischeneingaben verwenden, unterscheidet sich unser Ansatz erheblich davon. Unsere Stärke liegt darin, dass wir diese Masken als privilegierte Informationen behandeln – sie sind während des Trainings zugänglich, jedoch nicht während der Inferenz erforderlich. Dadurch wird ein zusätzlicher Bitrate-Aufwand vermieden. So weit uns bekannt ist, sind wir die Ersten, die klassenunabhängige Masken als privilegierte Informationen nutzen und dabei eine überlegene Leistung in Pixel-Fidelitätsmetriken wie dem Peak Signal-to-Noise Ratio (PSNR) erzielen. Die experimentellen Ergebnisse zeigen eine deutliche Verbesserung gegenüber bisher gut performenden Methoden, wobei wir im Vergleich zu VTM-17.0 etwa 8,2 % Bitrate einsparen. Der Quellcode ist unter https://github.com/GityuxiLiu/SegPIC-for-Image-Compression verfügbar.