MAMo: Nutzung von Memory und Attention für die Tiefenschätzung in monokularen Videosequenzen

Wir stellen MAMo vor, ein neuartiges Speicher- und Aufmerksamkeits-Modell für die Tiefenschätzung aus einzelnen Videos. MAMo ermöglicht es, beliebige Einzelbild-Tiefenschätznetzwerke durch die Integration zeitlicher Informationen zu erweitern und zu verbessern, sodass sie präzisere Tiefenwerte vorhersagen können. In MAMo wird das Modell mit einem Gedächtnis erweitert, das bei der Durchlaufzeit durch das Video die Tiefenschätzung unterstützt. Konkret speichert das Gedächtnis gelernte visuelle und Verschiebungs-Token aus vorherigen Zeitpunkten. Dadurch kann das Tiefennetzwerk bei der Schätzung der Tiefe für den aktuellen Frame relevante Merkmale aus der Vergangenheit abrufen und vergleichen. Wir führen ein neuartiges Verfahren zur kontinuierlichen Aktualisierung des Gedächtnisses ein, das darauf abzielt, diejenigen Token zu bewahren, die sowohl mit der visuellen Information aus der Vergangenheit als auch der aktuellen Szene korrelieren. Wir nutzen einen auf Aufmerksamkeit basierenden Ansatz zur Verarbeitung der Gedächtnismerkmale: Zunächst lernen wir die räumlich-zeitlichen Beziehungen zwischen den resultierenden visuellen und Verschiebungs-Gedächtnistoken mittels eines Selbst-Aufmerksamkeits-Moduls. Anschließend werden die Ausgabemerkmale dieses Moduls über ein Kreuz-Aufmerksamkeits-Verfahren mit den aktuellen visuellen Merkmalen aggregiert. Die so entstandenen kreuz-attentiven Merkmale werden schließlich einem Dekoder zugeführt, um die Tiefe für den aktuellen Frame vorherzusagen. Durch umfangreiche Experimente auf mehreren Benchmarks, darunter KITTI, NYU-Depth V2 und DDAD, zeigen wir, dass MAMo monokulare Tiefenschätznetzwerke konsistent verbessert und eine neue State-of-the-Art (SOTA)-Genauigkeit erreicht. Insbesondere liefert unser MAMo-Modell für die Tiefenschätzung in Videos eine höhere Genauigkeit bei geringerer Latenz im Vergleich zu aktuellen SOTA-Modellen, die auf Cost-Volume-Techniken basieren.