iiTransformer: Ein einheitlicher Ansatz zur Ausnutzung lokaler und globaler Informationen für die Bildrekonstruktion

Das Ziel der Bildrekonstruktion besteht darin, ein hochwertiges Bild aus einer beeinträchtigten Eingabe wiederherzustellen. Obwohl mit Hilfe von Convolutional Neural Networks (CNNs) beeindruckende Ergebnisse bei verschiedenen Aufgaben der Bildrekonstruktion erzielt wurden, beschränkt die Faltungsbetrieb seine Fähigkeit, Informationen außerhalb seines Empfindlichkeitsfeldes zu nutzen. Transformers, die die Selbst-Attention-Mechanismen nutzen, um langreichweitige Abhängigkeiten der Eingaben zu modellieren, haben sich in verschiedenen hochlevel-Vision-Aufgaben als vielversprechend erwiesen. In diesem Paper stellen wir den intra-inter Transformer (iiTransformer) vor, indem wir explizit langreichweitige Abhängigkeiten auf Pixel- und Patch-Ebene modellieren, da sowohl lokale als auch nicht-lokale Merkmalskorrelationen Vorteile bieten. Darüber hinaus präsentieren wir eine lösungsorientierte, randartefaktfreie Methode zur Unterstützung von Bildern beliebiger Größe. Wir zeigen durch umfangreiche Experimente an verschiedenen Aufgaben der Bildrekonstruktion das Potenzial von iiTransformer als allgemein verwendbare Grundarchitektur.