Vision-Sprache-Navigation mit zufälliger Umwelt-Mixup

Aufgaben im Bereich Vision-Language Navigation (VLN) erfordern von einem Agenten eine schrittweise Navigation unter Berücksichtigung visueller Beobachtungen und der Verarbeitung natürlicher Sprachanweisungen. Ein erheblicher Datensatz-Bias, verursacht durch das Verhältnis von geringer Datenskalierung zu großem Navigationsraum, macht die VLN-Aufgabe besonders herausfordernd. Bisherige Ansätze haben verschiedene Methoden zur Datenverstärkung vorgeschlagen, um den Datensatz-Bias zu verringern. Allerdings reduzieren diese Ansätze den Bias zwischen verschiedenen Hausszenen nicht explizit. Hierdurch neigt der Agent dazu, sich überangepasst an die gesehenen Szenen zu verhalten und zeigt eine schlechte Navigationsleistung in unbekannten Szenen. Um dieses Problem zu bewältigen, schlagen wir die Methode Random Environmental Mixup (REM) vor, die durch das Mixen von Umgebungen überkreuzverknüpfte Hausszenen als vergrößerte Daten generiert. Konkret wählen wir zunächst anhand eines Raum-Verbindungsgraphen für jede Szene Schlüsselpunkte aus. Anschließend verbinden wir die Schlüsselpunkte verschiedener Szenen überkreuz, um erweiterte Szenen zu konstruieren. Schließlich generieren wir in diesen überkreuzverknüpften Szenen vergrößerte Paare aus Anweisung und Pfad. Die experimentellen Ergebnisse auf Standard-Datensätzen zeigen, dass die durch REM generierten Daten dem Agenten helfen, die Leistungsunterschiede zwischen gesehenen und unbekannten Umgebungen zu verringern und die Gesamtleistung zu verbessern. Dadurch erreicht unser Modell die beste bisher bekannte Leistung auf dem Standard-VLN-Benchmark. Der Quellcode ist veröffentlicht: https://github.com/LCFractal/VLNREM.