Der Teufel steckt im Detail: fensterbasierte Aufmerksamkeit für die Bildkompression

Gelernte Bildkompressionsmethoden haben eine überlegene Rate-Distortion-Leistung im Vergleich zu klassischen Bildkompressionsstandards gezeigt. Die meisten bestehenden Modelle für gelernte Bildkompression basieren auf Convolutional Neural Networks (CNNs). Trotz ihrer bedeutenden Beiträge weist ein zentrales Nachteil dieser CNN-basierten Ansätze eine Struktur auf, die nicht speziell darauf ausgelegt ist, lokale Redundanzen – insbesondere nicht-repetitive Texturen – effektiv zu erfassen, was die Rekonstruktionsqualität erheblich beeinträchtigt. Daher stellt sich die Frage, wie sowohl globale Strukturen als auch lokale Texturen optimal genutzt werden können, als zentrale Herausforderung bei der lernbasierten Bildkompression. Inspiriert durch die jüngsten Fortschritte bei Vision Transformer (ViT) und Swin Transformer konnten wir feststellen, dass die Kombination einer lokal-aware Aufmerksamkeitsmechanik mit der Lernung globaler Zusammenhänge die Erwartungen in der Bildkompression erfüllen kann. In dieser Arbeit untersuchen wir zunächst umfassend die Wirkung verschiedener Arten von Aufmerksamkeitsmechanismen für die Lernung lokaler Merkmale und stellen dann einen einfacheren, jedoch effektiven window-basierten lokalen Aufmerksamkeitsblock vor. Der vorgeschlagene window-basierte Aufmerksamkeitsblock ist äußerst flexibel und kann als Plug-and-Play-Komponente verwendet werden, um sowohl CNN- als auch Transformer-basierte Modelle zu verbessern. Darüber hinaus präsentieren wir einen neuartigen symmetrischen TransFormer (STF)-Framework, der absolute Transformer-Blöcke im Down-Sampling-Encoder und Up-Sampling-Decoder verwendet. Ausführliche experimentelle Bewertungen zeigen, dass die vorgeschlagene Methode effektiv ist und die derzeitigen State-of-the-Art-Methoden übertrifft. Der Quellcode ist öffentlich unter https://github.com/Googolxx/STF verfügbar.