HyperAIHyperAI
vor 11 Tagen

Ein neuer Weg: Skalierung der Vision-and-Language-Navigation mit synthetischen Anweisungen und Nachahmungslernen

Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge, Zarana Parekh
Ein neuer Weg: Skalierung der Vision-and-Language-Navigation mit synthetischen Anweisungen und Nachahmungslernen
Abstract

Neuere Studien im Bereich des Vision-and-Language-Navigation (VLN) trainieren RL-Agenten, um natürlichsprachliche Navigationsanweisungen in fotorealistischen Umgebungen auszuführen, als Schritt hin zu Robotern, die menschliche Anweisungen befolgen können. Aufgrund der Knappheit an menschlichen Anweisungsdaten und der begrenzten Vielfalt der Trainingsumgebungen leiden diese Agenten jedoch weiterhin unter Schwierigkeiten bei der Verarbeitung komplexer Sprachgrundlagen und räumlicher Sprachverständnis. Die Vortrainierung auf großen Text- und Bild-Text-Datensätzen aus dem Web wurde ausgiebig untersucht, doch die Verbesserungen sind begrenzt. Wir untersuchen eine großskalige Erweiterung durch synthetische Anweisungen. Dazu nutzen wir mehr als 500 innenliegende Umgebungen, die in dicht abgetasteten 360-Grad-Panoramen erfasst wurden, erstellen Navigationstrajektorien durch diese Panoramen und generieren für jede Trajektorie eine visuell fundierte Anweisung mithilfe von Marky, einem hochwertigen, mehrsprachigen Generator für Navigationsanweisungen. Außerdem synthetisieren wir Bildbeobachtungen aus neuen Perspektiven mittels eines Bild-zu-Bild-GANs. Das resultierende Datenset mit 4,2 Millionen Anweisungs-Trajektorien-Paaren ist zwei Größenordnungen größer als bisherige menschlich annotierte Datensätze und enthält eine vielfältigere Palette an Umgebungen und Blickwinkeln. Um die Daten in dieser Skala effizient nutzen zu können, trainieren wir einen einfachen Transformer-Agenten mittels Nachahmungslernen. Auf dem anspruchsvollen RxR-Datensatz übertrifft unser Ansatz alle bisherigen RL-Agenten und verbessert die bisher beste NDTW von 71,1 auf 79,1 in gesehenen Umgebungen und von 64,6 auf 66,8 in unbekannten Testumgebungen. Unsere Arbeit weist auf einen neuen Weg zur Verbesserung von Anweisungsfolge-Agenten hin, der die großskalige Nachahmungslernverfahren und die Entwicklung von Fähigkeiten zur synthetischen Generierung von Anweisungen betont.

Ein neuer Weg: Skalierung der Vision-and-Language-Navigation mit synthetischen Anweisungen und Nachahmungslernen | Neueste Forschungsarbeiten | HyperAI