HyperAIHyperAI
vor 11 Tagen

Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche

Raphael Schumann, Stefan Riezler
Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche
Abstract

Vision and Language Navigation (VLN) ist eine anspruchsvolle, visuell verankerte Sprachversteh-Aufgabe. Gegeben eine natürlichsprachliche Navigationsanweisung interagiert ein visuelles Agent mit einer graphbasierten Umgebung, die Panoramabilder enthält, und versucht, die beschriebene Route zu folgen. Die meisten vorangegangenen Arbeiten konzentrierten sich auf Innenraum-Szenarien, wobei die besten Ergebnisse für Navigation entlang von Routen erzielt wurden, die den Trainingsrouten ähneln; dabei zeigt sich ein deutlicher Leistungsabfall, wenn auf unbekannten Umgebungen getestet wird. Wir fokussieren uns auf VLN in Außenbereichen und stellen fest, dass sich im Gegensatz zu Innenraum-VLN der größte Teil der Verbesserung bei unbekannten Daten auf Merkmale wie Junction-Typ-Embeddings oder Kopfrichtungs-Deltas stützt, die spezifisch für den jeweiligen Umgebungsgaphen sind, während visuelle Informationen eine sehr geringe Rolle bei der Generalisierung von VLN auf unbekannte Außenbereiche spielen. Diese Ergebnisse zeigen eine starke Neigung zu spezifischen Eigenschaften der Graph-Darstellungen städtischer Umgebungen und unterstreichen die Notwendigkeit, VLN-Aufgaben in Skalierung und Vielfalt geografischer Umgebungen weiter auszubauen.

Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche | Neueste Forschungsarbeiten | HyperAI