Zu robusten monoökularen Tiefenschätzungen: Datensätze mischen für zero-shot Cross-Datensatz-Übertragung

Der Erfolg der monoaularen Tiefenschätzung basiert auf großen und vielfältigen Trainingsdatensätzen. Aufgrund der Herausforderungen, dichte Ground-Truth-Tiefeninformationen in verschiedenen Umgebungen großflächig zu erlangen, sind eine Reihe von Datensätzen mit unterschiedlichen Eigenschaften und Verzerrungen entstanden. Wir entwickeln Werkzeuge, die es ermöglichen, mehrere Datensätze während des Trainings zu mischen, auch wenn ihre Annotationen unvereinbar sind. Insbesondere schlagen wir ein robustes Trainingsziel vor, das gegenüber Änderungen im Tiefenbereich und -skalierung invariant ist, befürworten die Verwendung prinzipieller Multi-Objekt-Lernmethoden zur Kombination von Daten aus verschiedenen Quellen und betonen die Bedeutung des Vortrainings von Encodern an Nebenaufgaben. Mit diesen Werkzeugen experimentieren wir mit fünf diversen Trainingsdatensätzen, darunter einer neuen, massiven Datenquelle: 3D-Filme. Um die Generalisierungsfähigkeit unseres Ansatzes zu demonstrieren, verwenden wir zero-shot cross-dataset transfer (d.h., wir evaluieren auf Datensätzen, die während des Trainings nicht gesehen wurden). Die Experimente bestätigen, dass das Mischen von Daten aus ergänzenden Quellen die monoaulare Tiefenschätzung erheblich verbessert. Unser Ansatz übertrifft offensichtlich konkurrierende Methoden bei diversen Datensätzen und setzt einen neuen Stand der Technik für die monoaulare Tiefenschätzung. Einige Ergebnisse werden im zusätzlichen Video unter https://youtu.be/D46FzVyL9I8 gezeigt.