Instanzbasierte Bildfärbung

Die Bildfarbgebung ist ein inhärent schlecht gestelltes Problem mit multimodaler Unsicherheit. Vorherige Methoden nutzen tiefes neuronales Netzwerk, um Eingangsbilder in Graustufen direkt auf plausibele farbige Ausgaben abzubilden. Obwohl diese lernbasierten Methoden beeindruckende Leistungen gezeigt haben, scheitern sie oft an Eingangsbildern, die mehrere Objekte enthalten. Der Hauptgrund dafür ist, dass existierende Modelle das Lernen und die Farbgebung über das gesamte Bild durchführen. Ohne eine klare Trennung zwischen Figur und Hintergrund können diese Modelle nicht effektiv sinnvolle objektorientierte Semantiken lokalisieren und lernen. In dieser Arbeit schlagen wir eine Methode zur instanzbasierten Farbgebung vor. Unser Netzwerkarchitektur nutzt einen standardisierten Objekterkennungsalgorithmus (off-the-shelf object detector), um zugeschnittene Objektbilder zu erhalten, und verwendet ein Netzwerk zur instanzbasierten Farbgebung, um objektorientierte Merkmale zu extrahieren. Wir verwenden ein ähnliches Netzwerk, um die Merkmale des gesamten Bildes zu extrahieren, und wenden ein Fusionsmodul auf die objektorientierten und bildweiten Merkmale an, um die endgültigen Farben vorherzusagen. Sowohl die Farbgebungsnetzwerke als auch die Fusionsmodule werden aus einem groß angelegten Datensatz gelernt. Experimentelle Ergebnisse zeigen, dass unsere Arbeit bei verschiedenen Qualitätsmetriken bestehende Methoden übertrifft und den aktuellen Stand der Technik in der Bildfarbgebung erreicht.