T2Net: Synthetisch-realistische Übersetzung zur Lösung von Aufgaben der Tiefenschätzung aus einem Bild

Aktuelle Methoden zur Tiefenschätzung aus einzelnen Bildern verwenden Trainingsdatensätze mit realen Bild-Tiefenpaaren oder Stereo-Paaren, die nicht leicht zu erlangen sind. Wir schlagen einen Rahmen vor, der auf synthetischen Bild-Tiefenpaaren und unverpaarten realen Bildern trainiert wird. Dieser Rahmen besteht aus einem Bildübersetzungsnetzwerk zur Verbesserung der Realismus von Eingangsbildern, gefolgt von einem Tiefenschätzungsnetzwerk. Ein wesentlicher Gedanke dabei ist, dass das erste Netzwerk als breitbandiger Eingangstranslator fungiert, sowohl synthetische als auch reale Bilder entgegennimmt und idealerweise minimale modifizierte realistische Bilder produziert. Dies geschieht durch einen Rekonstruktionsschaden, wenn die Trainingseingabe real ist, und durch einen GAN-Schaden (Generative Adversarial Network), wenn sie synthetisch ist, wodurch die Notwendigkeit für heuristische Selbstregulierung beseitigt wird. Das zweite Netzwerk wird auf einem Aufgabenverlust für synthetische Bild-Tiefenpaare trainiert, mit zusätzlichen GAN-Verlusten zur Vereinheitlichung der Verteilungen von realen und synthetischen Merkmalen. Wichtig ist, dass der Rahmen end-to-end trainiert werden kann, was zu guten Ergebnissen führt, die sogar frühe Deep-Learning-Methoden übertreffen können, die reale verpaarte Daten verwenden.