Bridging Global Context Interactions for High-Fidelity Image Completion

Die korrekte Berücksichtigung globaler Kontextwechselwirkungen ist entscheidend für die hochgenaue Bildergänzung bei großen Masken. Bisherige Ansätze, die dies mittels tiefer oder großer Empfindlichkeitsfelder (Receptive Field, RF) bei Faltungsnetzwerken anstreben, können der Dominanz lokaler Wechselwirkungen nicht entkommen, was zu suboptimalen Ergebnissen führen kann. In diesem Paper schlagen wir vor, die Bildergänzung als eine richtungslose Sequenz-zu-Sequenz-Vorhersageaufgabe zu betrachten und einen Transformer einzusetzen, um direkt langreichweitige Abhängigkeiten im Encoder zu erfassen. Entscheidend ist, dass wir einen restriktiven CNN mit kleinem und nicht überlappendem Empfindlichkeitsfeld zur gewichteten Repräsentation von Tokens einsetzen, wodurch der Transformer in allen Schichten explizit die langreichweitigen sichtbaren Kontextbeziehungen mit gleicher Bedeutung modellieren kann, ohne dass benachbarte Tokens implizit durch größere Empfindlichkeitsfelder vermischt werden. Um die optische Konsistenz zwischen sichtbaren und generierten Regionen zu verbessern, wird eine neuartige, auf Aufmerksamkeit basierende Schicht (Attention-aware Layer, AAL) eingeführt, um hochfrequente, entfernt liegende Merkmale besser auszunutzen. Insgesamt zeigen umfangreiche Experimente eine überlegene Leistung gegenüber den aktuellen State-of-the-Art-Methoden auf mehreren Datensätzen.