HyperAIHyperAI

Command Palette

Search for a command to run...

Vision-Sprache-Navigation mit zufälliger Umwelt-Mixup

Chong Liu Fengda Zhu Xiaojun Chang Xiaodan Liang Zongyuan Ge Yi-Dong Shen

Zusammenfassung

Aufgaben im Bereich Vision-Language Navigation (VLN) erfordern von einem Agenten eine schrittweise Navigation unter Berücksichtigung visueller Beobachtungen und der Verarbeitung natürlicher Sprachanweisungen. Ein erheblicher Datensatz-Bias, verursacht durch das Verhältnis von geringer Datenskalierung zu großem Navigationsraum, macht die VLN-Aufgabe besonders herausfordernd. Bisherige Ansätze haben verschiedene Methoden zur Datenverstärkung vorgeschlagen, um den Datensatz-Bias zu verringern. Allerdings reduzieren diese Ansätze den Bias zwischen verschiedenen Hausszenen nicht explizit. Hierdurch neigt der Agent dazu, sich überangepasst an die gesehenen Szenen zu verhalten und zeigt eine schlechte Navigationsleistung in unbekannten Szenen. Um dieses Problem zu bewältigen, schlagen wir die Methode Random Environmental Mixup (REM) vor, die durch das Mixen von Umgebungen überkreuzverknüpfte Hausszenen als vergrößerte Daten generiert. Konkret wählen wir zunächst anhand eines Raum-Verbindungsgraphen für jede Szene Schlüsselpunkte aus. Anschließend verbinden wir die Schlüsselpunkte verschiedener Szenen überkreuz, um erweiterte Szenen zu konstruieren. Schließlich generieren wir in diesen überkreuzverknüpften Szenen vergrößerte Paare aus Anweisung und Pfad. Die experimentellen Ergebnisse auf Standard-Datensätzen zeigen, dass die durch REM generierten Daten dem Agenten helfen, die Leistungsunterschiede zwischen gesehenen und unbekannten Umgebungen zu verringern und die Gesamtleistung zu verbessern. Dadurch erreicht unser Modell die beste bisher bekannte Leistung auf dem Standard-VLN-Benchmark. Der Quellcode ist veröffentlicht: https://github.com/LCFractal/VLNREM.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp