Lernen von bildangepassten 3D-Lookup-Tabellen für die hochleistungsfähige Fotoverbesserung in Echtzeit

In den letzten Jahren hat sich die Beliebtheit von lernbasierten Methoden zur Verbesserung der Farbe und des Tons von Fotos stetig gesteigert. Viele bestehende Fotoverbesserungsmethoden liefern jedoch entweder unzufriedenstellende Ergebnisse oder verbrauchen zu viele Rechen- und Speicherressourcen, was ihre praktische Anwendung auf Hochauflösungs-Bilder (in der Regel mit mehr als 12 Megapixeln) erschwert. In dieser Arbeit lernen wir bildangepasste dreidimensionale Lookup-Tabellen (3D LUTs), um eine schnelle und robuste Fotoverbesserung zu erreichen. 3D LUTs werden häufig verwendet, um die Farbe und den Ton von Fotos zu manipulieren, aber sie werden in der Regel manuell justiert und in der Kamera-Bildverarbeitungskette oder in Fotoeditierwerkzeugen festgelegt. Zum ersten Mal, soweit wir wissen, schlagen wir vor, 3D LUTs aus annotierten Daten durch paarweise oder unpaarweise Lernmethoden zu erlernen. Noch wichtiger ist, dass unsere gelernten 3D LUTs bildangepasst sind und somit eine flexible Fotoverbesserung ermöglichen. Wir lernen gleichzeitig mehrere Basis-3D LUTs und ein kleines Faltungsneuronales Netz (CNN) in einem end-to-end Ansatz. Das kleine CNN arbeitet auf einer abgetasteten Version des Eingangsbildes, um inhaltsabhängige Gewichte vorherzusagen, die dazu dienen, die mehreren Basis-3D LUTs zu einer bildangepassten Tabelle zusammenzuführen. Diese wird dann effizient zur Transformation der Farbe und des Tons von Quellbildern eingesetzt. Unser Modell enthält weniger als 600K Parameter und benötigt weniger als 2 ms zur Verarbeitung eines 4K-Auflösungs-Bildes unter Verwendung einer Titan RTX GPU. Trotz seiner hohen Effizienz übertrifft unser Modell die besten bisherigen Fotoverbesserungsmethoden deutlich hinsichtlich PSNR, SSIM und eines Farbunterschiedsmetriks auf zwei öffentlich zugänglichen Benchmark-Datensätzen.