HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche

Raphael Schumann Stefan Riezler

Zusammenfassung

Vision and Language Navigation (VLN) ist eine anspruchsvolle, visuell verankerte Sprachversteh-Aufgabe. Gegeben eine natürlichsprachliche Navigationsanweisung interagiert ein visuelles Agent mit einer graphbasierten Umgebung, die Panoramabilder enthält, und versucht, die beschriebene Route zu folgen. Die meisten vorangegangenen Arbeiten konzentrierten sich auf Innenraum-Szenarien, wobei die besten Ergebnisse für Navigation entlang von Routen erzielt wurden, die den Trainingsrouten ähneln; dabei zeigt sich ein deutlicher Leistungsabfall, wenn auf unbekannten Umgebungen getestet wird. Wir fokussieren uns auf VLN in Außenbereichen und stellen fest, dass sich im Gegensatz zu Innenraum-VLN der größte Teil der Verbesserung bei unbekannten Daten auf Merkmale wie Junction-Typ-Embeddings oder Kopfrichtungs-Deltas stützt, die spezifisch für den jeweiligen Umgebungsgaphen sind, während visuelle Informationen eine sehr geringe Rolle bei der Generalisierung von VLN auf unbekannte Außenbereiche spielen. Diese Ergebnisse zeigen eine starke Neigung zu spezifischen Eigenschaften der Graph-Darstellungen städtischer Umgebungen und unterstreichen die Notwendigkeit, VLN-Aufgaben in Skalierung und Vielfalt geografischer Umgebungen weiter auszubauen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp