HyperAIHyperAI

Command Palette

Search for a command to run...

MAMo: Nutzung von Memory und Attention für die Tiefenschätzung in monokularen Videosequenzen

Rajeev Yasarla Hong Cai Jisoo Jeong Yunxiao Shi Risheek Garrepalli Fatih Porikli

Zusammenfassung

Wir stellen MAMo vor, ein neuartiges Speicher- und Aufmerksamkeits-Modell für die Tiefenschätzung aus einzelnen Videos. MAMo ermöglicht es, beliebige Einzelbild-Tiefenschätznetzwerke durch die Integration zeitlicher Informationen zu erweitern und zu verbessern, sodass sie präzisere Tiefenwerte vorhersagen können. In MAMo wird das Modell mit einem Gedächtnis erweitert, das bei der Durchlaufzeit durch das Video die Tiefenschätzung unterstützt. Konkret speichert das Gedächtnis gelernte visuelle und Verschiebungs-Token aus vorherigen Zeitpunkten. Dadurch kann das Tiefennetzwerk bei der Schätzung der Tiefe für den aktuellen Frame relevante Merkmale aus der Vergangenheit abrufen und vergleichen. Wir führen ein neuartiges Verfahren zur kontinuierlichen Aktualisierung des Gedächtnisses ein, das darauf abzielt, diejenigen Token zu bewahren, die sowohl mit der visuellen Information aus der Vergangenheit als auch der aktuellen Szene korrelieren. Wir nutzen einen auf Aufmerksamkeit basierenden Ansatz zur Verarbeitung der Gedächtnismerkmale: Zunächst lernen wir die räumlich-zeitlichen Beziehungen zwischen den resultierenden visuellen und Verschiebungs-Gedächtnistoken mittels eines Selbst-Aufmerksamkeits-Moduls. Anschließend werden die Ausgabemerkmale dieses Moduls über ein Kreuz-Aufmerksamkeits-Verfahren mit den aktuellen visuellen Merkmalen aggregiert. Die so entstandenen kreuz-attentiven Merkmale werden schließlich einem Dekoder zugeführt, um die Tiefe für den aktuellen Frame vorherzusagen. Durch umfangreiche Experimente auf mehreren Benchmarks, darunter KITTI, NYU-Depth V2 und DDAD, zeigen wir, dass MAMo monokulare Tiefenschätznetzwerke konsistent verbessert und eine neue State-of-the-Art (SOTA)-Genauigkeit erreicht. Insbesondere liefert unser MAMo-Modell für die Tiefenschätzung in Videos eine höhere Genauigkeit bei geringerer Latenz im Vergleich zu aktuellen SOTA-Modellen, die auf Cost-Volume-Techniken basieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MAMo: Nutzung von Memory und Attention für die Tiefenschätzung in monokularen Videosequenzen | Paper | HyperAI