HyperAIHyperAI
vor 11 Tagen

Gelernte Bildkompression mit gemischten Transformer-CNN-Architekturen

Jinming Liu, Heming Sun, Jiro Katto
Gelernte Bildkompression mit gemischten Transformer-CNN-Architekturen
Abstract

Bekannte Methoden der lernbasierten Bildkompression (LIC) haben im Vergleich zu klassischen Bildkompressionsstandards vielversprechende Fortschritte erzielt und eine überlegene Rate-Distortion-Leistung gezeigt. Die meisten bestehenden LIC-Methoden basieren entweder auf Faltungsneuronalen Netzen (CNN-basiert) oder auf Transformers, die jeweils unterschiedliche Vorteile bieten. Die Kombination beider Ansätze ist eine vielversprechende Forschungsrichtung, die jedoch zwei zentrale Herausforderungen mit sich bringt: 1) Wie kann man die beiden Methoden effektiv fusionieren? 2) Wie kann man eine höhere Leistung bei geeigneter Komplexität erreichen? In dieser Arbeit stellen wir einen effizienten parallelen Transformer-CNN-Mischblock (TCM) mit steuerbarer Komplexität vor, um die lokale Modellierungsfähigkeit von CNNs und die nicht-lokale Modellierungsfähigkeit von Transformers zu integrieren und damit die Gesamtarchitektur von Bildkompressionsmodellen zu verbessern. Darüber hinaus werden durch Anregung durch jüngste Fortschritte in der Entropieschätzung und Aufmerksamkeitsmodulen ein kanalweises Entropiemodell sowie parameter-effiziente, auf Swin-Transformer basierende Aufmerksamkeitsmodule (SWAtten) vorgestellt, die durch Kanal-Squeeze realisiert werden. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode im Vergleich zu bestehenden LIC-Methoden auf drei unterschiedlichen Datensätzen mit unterschiedlichen Auflösungen (nämlich Kodak, Tecnick und CLIC Professional Validation) die derzeit besten Rate-Distortion-Leistungen erzielt. Der Quellcode ist unter https://github.com/jmliu206/LIC_TCM verfügbar.

Gelernte Bildkompression mit gemischten Transformer-CNN-Architekturen | Neueste Forschungsarbeiten | HyperAI