HyperAIHyperAI
vor 17 Tagen

Lernen kontinuierlicher Bilddarstellungen mit lokaler impliziter Bildfunktion

Yinbo Chen, Sifei Liu, Xiaolong Wang
Lernen kontinuierlicher Bilddarstellungen mit lokaler impliziter Bildfunktion
Abstract

Wie kann ein Bild dargestellt werden? Während die visuelle Welt kontinuierlich präsentiert wird, speichern und verarbeiten Maschinen Bilder diskret in Form von zweidimensionalen Pixel-Arrays. In diesem Artikel suchen wir nach einer kontinuierlichen Darstellung von Bildern. Inspiriert durch die jüngsten Fortschritte in der 3D-Rekonstruktion mittels impliziter neuronaler Darstellungen schlagen wir die Local Implicit Image Function (LIIF) vor, die als Eingabe ein Bildkoordinatensystem sowie die 2D-tiefen Merkmale in der Umgebung dieser Koordinate erhält und als Ausgabe den RGB-Wert an einer gegebenen Koordinate vorhersagt. Da die Koordinaten kontinuierlich sind, kann LIIF mit beliebiger Auflösung dargestellt werden. Um eine kontinuierliche Bildrepräsentation zu erzeugen, trainieren wir einen Encoder gemeinsam mit der LIIF-Darstellung über eine selbstüberwachte Aufgabe zur Super-Resolution. Die gelernte kontinuierliche Darstellung kann selbst bei einer bis zu 30-fach höheren Auflösung präsentiert werden – selbst dann, wenn solche Auflösungen im Trainingsprozess nicht vorgegeben waren. Darüber hinaus zeigen wir, dass die LIIF-Darstellung eine Brücke zwischen diskreter und kontinuierlicher Darstellung in zwei Dimensionen bildet: Sie unterstützt natürlicherweise Lernaufgaben mit Bild-Grundwahrheiten unterschiedlicher Größe und übertrifft deutlich Methoden, die die Grundwahrheiten durch Skalierung anpassen.