Bildinpainting mit lernfähigen bidirektionalen Aufmerksamkeitskarten

Die meisten auf Faltungsnetzen (CNN) basierenden Inpainting-Methoden verwenden Standardfaltung, um gültige Pixel und Löcher ununterscheidbar zu behandeln. Dies begrenzt ihre Fähigkeit, irreguläre Löcher zu verarbeiten, und führt häufig zu Inpainting-Ergebnissen mit Farbunterschieden und Unschärfe. Partielle Faltung wurde vorgeschlagen, um dieses Problem anzugehen, verwendet jedoch manuell gestaltete Feature-Renormierung und berücksichtigt nur die vorwärtsgerichtete Maskenaktualisierung. In dieser Arbeit stellen wir ein lernfähiges Aufmerksamkeitskartenmodul vor, das die Feature-Renormierung und Maskenaktualisierung in einem end-to-end-Prozess erlernt. Dieses Modul ist effektiv bei der Anpassung an irreguläre Löcher und der Ausbreitung durch Faltungsschichten. Darüber hinaus werden lernfähige Rückwärtsgewandte Aufmerksamkeitskarten eingeführt, um dem Decoder des U-Net zu ermöglichen, sich auf das Ausfüllen von irregulären Löchern zu konzentrieren, anstatt sowohl Löcher als auch bekannte Regionen zu rekonstruieren. Dies führt zu unseren lernfähigen bidirektionalen Aufmerksamkeitskarten. Qualitative und quantitative Experimente zeigen, dass unsere Methode im Vergleich zum State-of-the-Art schärfere, kohärentere und visuell plausiblere Inpainting-Ergebnisse erzeugt. Der Quellcode und die vorab trainierten Modelle werden verfügbar gemacht.