Hohe-Fidelity pluralistische Bildergänzung mit Transformers

Die Bildergänzung hat dank der leistungsstarken Texturmodellierungsfähigkeit von Faltungsneuralen Netzen (CNNs) erhebliche Fortschritte erzielt. Aufgrund einiger inhärenter Eigenschaften – beispielsweise lokaler induktiver Vorwissen und rauminvarianter Kerne – erzielen CNNs jedoch nur begrenzte Ergebnisse bei der Erfassung globaler Strukturen oder der natürlichen Unterstützung pluralistischer Ergänzungen. Kürzlich haben Transformer ihr Potenzial bei der Modellierung langfristiger Beziehungen und der Generierung vielfältiger Ergebnisse unter Beweis gestellt, ihre Rechenkomplexität ist jedoch quadratisch in der Eingabedauer, was ihre Anwendung bei der Verarbeitung hochauflösender Bilder einschränkt. In dieser Arbeit vereint das vorgeschlagene Verfahren die Stärken beider Ansätze für die pluralistische Bildergänzung: die Rekonstruktion von Erscheinungsvorwissen mittels Transformer und die Texturergänzung mittels CNN. Der erste Transformer rekonstruiert gleichzeitig mehrere konsistente, strukturelle Vorgaben sowie grobe Texturanteile, während das nachfolgende CNN die lokalen Texturdetails der groben Vorwissen durch gezielte Führung anhand der hochauflösenden maskierten Bilder verbessert. Die vorgeschlagene Methode übertrifft die aktuell besten Methoden in drei zentralen Aspekten deutlich: 1) erhebliche Steigerung der Bildqualität, selbst im Vergleich zu deterministischen Ergänzungsverfahren; 2) bessere Vielfalt und höhere Bildtreue bei pluralistischer Ergänzung; 3) herausragende Generalisierungsfähigkeit bei großen Masken und auf allgemeinen Datensätzen wie ImageNet.