HyperAIHyperAI

Command Palette

Search for a command to run...

BEVBert: Multimodale Kartenvortrainierung für sprachgeleitetes Navigation

Dong An Yuankai Qi Yangguang Li Yan Huang Liang Wang Tieniu Tan Jing Shao

Zusammenfassung

Großskaliges Vortraining hat vielversprechende Ergebnisse bei der Aufgabe der visuell-sprachlichen Navigation (Vision-and-Language Navigation, VLN) gezeigt. Allerdings nutzen die meisten bestehenden Vortrainingsmethoden diskrete Panoramen, um visuell-textuelle Zusammenhänge zu erlernen. Dies zwingt das Modell, implizit unvollständige und doppelte Beobachtungen innerhalb der Panoramen zu korrelieren, was die räumliche Wahrnehmung des Agents beeinträchtigen kann. Daher schlagen wir ein neues, kartengestütztes Vortrainingsparadigma vor, das räumliches Bewusstsein für die VLN-Aufgabe integriert. Konkret erstellen wir eine lokale metrische Karte, um unvollständige Beobachtungen explizit zu aggregieren und Doppelungen zu entfernen, während gleichzeitig die Navigation abhängigkeiten in einer globalen topologischen Karte modelliert werden. Dieses hybride Design ermöglicht ein ausgewogenes Verhältnis zwischen kurzfristigem Schlussfolgern und langfristigem Planen, was für die VLN erforderlich ist. Auf Basis dieser hybriden Karte entwickeln wir ein Vortrainingsframework, um eine multimodale Kartenrepräsentation zu lernen, die die räumlich bewusste, kreuzmodale Schlussfolgerung verbessert und somit die sprachgesteuerte Navigation erleichtert. Ausführliche Experimente belegen die Wirksamkeit des kartengestützten Vortrainingsansatzes für die VLN, und die vorgeschlagene Methode erreicht den Stand der Technik auf vier VLN-Benchmarks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp