BEVBert: Multimodale Kartenvortrainierung für sprachgeleitetes Navigation

Großskaliges Vortraining hat vielversprechende Ergebnisse bei der Aufgabe der visuell-sprachlichen Navigation (Vision-and-Language Navigation, VLN) gezeigt. Allerdings nutzen die meisten bestehenden Vortrainingsmethoden diskrete Panoramen, um visuell-textuelle Zusammenhänge zu erlernen. Dies zwingt das Modell, implizit unvollständige und doppelte Beobachtungen innerhalb der Panoramen zu korrelieren, was die räumliche Wahrnehmung des Agents beeinträchtigen kann. Daher schlagen wir ein neues, kartengestütztes Vortrainingsparadigma vor, das räumliches Bewusstsein für die VLN-Aufgabe integriert. Konkret erstellen wir eine lokale metrische Karte, um unvollständige Beobachtungen explizit zu aggregieren und Doppelungen zu entfernen, während gleichzeitig die Navigation abhängigkeiten in einer globalen topologischen Karte modelliert werden. Dieses hybride Design ermöglicht ein ausgewogenes Verhältnis zwischen kurzfristigem Schlussfolgern und langfristigem Planen, was für die VLN erforderlich ist. Auf Basis dieser hybriden Karte entwickeln wir ein Vortrainingsframework, um eine multimodale Kartenrepräsentation zu lernen, die die räumlich bewusste, kreuzmodale Schlussfolgerung verbessert und somit die sprachgesteuerte Navigation erleichtert. Ausführliche Experimente belegen die Wirksamkeit des kartengestützten Vortrainingsansatzes für die VLN, und die vorgeschlagene Methode erreicht den Stand der Technik auf vier VLN-Benchmarks.