vor 2 Monaten

FutureDepth: Das Lernen der Zukunftserwartung verbessert die Tiefenschätzung in Videos

Yasarla, Rajeev ; Singh, Manish Kumar ; Cai, Hong ; Shi, Yunxiao ; Jeong, Jisoo ; Zhu, Yinhao ; Han, Shizhong ; Garrepalli, Risheek ; Porikli, Fatih

Details der Forschungsarbeit anzeigen

FutureDepth: Das Lernen der Zukunftserwartung verbessert die Tiefenschätzung in Videos

Abstract

In dieser Arbeit schlagen wir einen neuen Ansatz zur Tiefenschätzung in Videos vor, den wir FutureDepth nennen. Dieser Ansatz ermöglicht es dem Modell, implizit mehrere Frames und Bewegungshinweise zu nutzen, um die Tiefenschätzung durch das Lernen der Vorhersage der Zukunft während des Trainings zu verbessern. Genauer gesagt schlagen wir ein zukunftsorientiertes Vorhersagenetzwerk, F-Net, vor, das die Merkmale mehrerer aufeinanderfolgender Frames verwendet und trainiert wird, um die Merkmale mehrerer Frames iterativ um einen Zeitschritt vorauszusagen. Auf diese Weise lernt F-Net die zugrundeliegenden Bewegungs- und Korrespondenzinformationen, und wir integrieren seine Merkmale in den Prozess der Tiefendekodierung. Zudem, um das Lernen von Mehrfachframe-Korrespondenzhinweisen zu erweitern, nutzen wir ein Rekonstruktionsnetzwerk, R-Net, das durch adaptives Maskieren von Mehrfachframe-Merkmalsvolumina trainiert wird. Bei der Inferenz werden sowohl F-Net als auch R-Net verwendet, um Abfragen zu generieren, die mit dem Tiefendekoder zusammenarbeiten, sowie ein Netzwerk für die endgültige Verfeinerung. Durch umfangreiche Experimente auf mehreren Benchmarks – NYUDv2, KITTI, DDAD und Sintel – die innenraum-, Fahrzeug- und offene Szenarien abdecken, zeigen wir, dass FutureDepth erheblich über Basismodellen hinausgeht und bestehende Methoden zur Tiefenschätzung in Videos übertrifft. Es erreicht dabei eine neue Standarte (SOTA) an Genauigkeit. Darüber hinaus ist FutureDepth effizienter als bestehende SOTA-Videotiefenschätzungsmodelle und hat vergleichbare Latenzen im Vergleich zu monoökularen Modellen.