MAT: Mask-Aware Transformer für die Bildinpainting mit großen Löchern

Neuere Studien haben die Bedeutung der Modellierung langreichweitiger Wechselwirkungen im Inpainting-Problem hervorgehoben. Um dieses Ziel zu erreichen, nutzen bestehende Ansätze entweder eigenständige Aufmerksamkeitsverfahren oder Transformer, meist jedoch in niedriger Auflösung, um den Rechenaufwand zu begrenzen. In diesem Paper stellen wir ein neuartiges, auf Transformer basierendes Modell für das Inpainting großer Löcher vor, das die Vorzüge von Transformer und Faltungen vereint, um hochaufgelöste Bilder effizient zu verarbeiten. Jeder Bestandteil unseres Frameworks wurde sorgfältig entworfen, um die hohe Fidelität und Vielfalt der rekonstruierten Bilder zu gewährleisten. Insbesondere haben wir einen auf Inpainting zugeschnittenen Transformer-Block entwickelt, bei dem das Aufmerksamkeitsmodul nur nicht-lokale Informationen aus einem Teil der gültigen Tokens aggregiert, die durch eine dynamische Maske indiziert werden. Umfangreiche Experimente belegen die state-of-the-art Leistung des neuen Modells auf mehreren Benchmark-Datensätzen. Der Quellcode ist unter https://github.com/fenglinglwb/MAT verfügbar.