HyperAIHyperAI

Command Palette

Search for a command to run...

FutureDepth: Das Lernen der Zukunftserwartung verbessert die Tiefenschätzung in Videos

Rajeev Yasarla Manish Kumar Singh Hong Cai Yunxiao Shi Jisoo Jeong Yinhao Zhu Shizhong Han Risheek Garrepalli Fatih Porikli

Zusammenfassung

In dieser Arbeit schlagen wir einen neuen Ansatz zur Tiefenschätzung in Videos vor, den wir FutureDepth nennen. Dieser Ansatz ermöglicht es dem Modell, implizit mehrere Frames und Bewegungshinweise zu nutzen, um die Tiefenschätzung durch das Lernen der Vorhersage der Zukunft während des Trainings zu verbessern. Genauer gesagt schlagen wir ein zukunftsorientiertes Vorhersagenetzwerk, F-Net, vor, das die Merkmale mehrerer aufeinanderfolgender Frames verwendet und trainiert wird, um die Merkmale mehrerer Frames iterativ um einen Zeitschritt vorauszusagen. Auf diese Weise lernt F-Net die zugrundeliegenden Bewegungs- und Korrespondenzinformationen, und wir integrieren seine Merkmale in den Prozess der Tiefendekodierung. Zudem, um das Lernen von Mehrfachframe-Korrespondenzhinweisen zu erweitern, nutzen wir ein Rekonstruktionsnetzwerk, R-Net, das durch adaptives Maskieren von Mehrfachframe-Merkmalsvolumina trainiert wird. Bei der Inferenz werden sowohl F-Net als auch R-Net verwendet, um Abfragen zu generieren, die mit dem Tiefendekoder zusammenarbeiten, sowie ein Netzwerk für die endgültige Verfeinerung. Durch umfangreiche Experimente auf mehreren Benchmarks – NYUDv2, KITTI, DDAD und Sintel – die innenraum-, Fahrzeug- und offene Szenarien abdecken, zeigen wir, dass FutureDepth erheblich über Basismodellen hinausgeht und bestehende Methoden zur Tiefenschätzung in Videos übertrifft. Es erreicht dabei eine neue Standarte (SOTA) an Genauigkeit. Darüber hinaus ist FutureDepth effizienter als bestehende SOTA-Videotiefenschätzungsmodelle und hat vergleichbare Latenzen im Vergleich zu monoökularen Modellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FutureDepth: Das Lernen der Zukunftserwartung verbessert die Tiefenschätzung in Videos | Paper | HyperAI