HyperAIHyperAI

Command Palette

Search for a command to run...

Denken global, handeln lokal: Dual-scale Graph Transformer für Vision-and-Language-Navigation

Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev

Zusammenfassung

Die Navigation in unbekannten Umgebungen anhand von Sprachanweisungen stellt eine herausfordernde Aufgabe für autonome körperhafte Agenten dar. Der Agent muss nicht nur Sprache in visuelle Szenen einbetten, sondern auch die Umgebung erkunden, um sein Ziel zu erreichen. In dieser Arbeit stellen wir einen dual-skaligen Graph-Transformer (DUET) vor, der eine gemeinsame langfristige Aktionsplanung und feinabgestimmte, mehrmodale Verständnisfähigkeit ermöglicht. Wir erstellen dynamisch eine topologische Karte, um eine effiziente Erkundung im globalen Aktionsraum zu gewährleisten. Um das Gleichgewicht zwischen der Komplexität der Reasoning-Prozesse im großen Aktionsraum und der feinabgestimmten Sprach-Grundlage zu finden, kombinieren wir dynamisch eine feinskalige Kodierung basierend auf lokalen Beobachtungen mit einer grobskaligen Kodierung auf der globalen Karte mittels Graph-Transformern. Der vorgeschlagene Ansatz, DUET, übertrifft die derzeit besten Methoden erheblich auf den zielorientierten Vision-and-Language-Navigation-(VLN)-Benchmark-Datenbanken REVERIE und SOON. Zudem steigert er die Erfolgsrate auf dem feinabgestimmten VLN-Benchmark R2R.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp