Denken global, handeln lokal: Dual-scale Graph Transformer für Vision-and-Language-Navigation

Die Navigation in unbekannten Umgebungen anhand von Sprachanweisungen stellt eine herausfordernde Aufgabe für autonome körperhafte Agenten dar. Der Agent muss nicht nur Sprache in visuelle Szenen einbetten, sondern auch die Umgebung erkunden, um sein Ziel zu erreichen. In dieser Arbeit stellen wir einen dual-skaligen Graph-Transformer (DUET) vor, der eine gemeinsame langfristige Aktionsplanung und feinabgestimmte, mehrmodale Verständnisfähigkeit ermöglicht. Wir erstellen dynamisch eine topologische Karte, um eine effiziente Erkundung im globalen Aktionsraum zu gewährleisten. Um das Gleichgewicht zwischen der Komplexität der Reasoning-Prozesse im großen Aktionsraum und der feinabgestimmten Sprach-Grundlage zu finden, kombinieren wir dynamisch eine feinskalige Kodierung basierend auf lokalen Beobachtungen mit einer grobskaligen Kodierung auf der globalen Karte mittels Graph-Transformern. Der vorgeschlagene Ansatz, DUET, übertrifft die derzeit besten Methoden erheblich auf den zielorientierten Vision-and-Language-Navigation-(VLN)-Benchmark-Datenbanken REVERIE und SOON. Zudem steigert er die Erfolgsrate auf dem feinabgestimmten VLN-Benchmark R2R.