vor 17 Tagen

BabyWalk: Weiter im Visueller-und-Sprachlichen Navigation durch kleine Schritte

Wang Zhu, Hexiang Hu, Jiacheng Chen, Zhiwei Deng, Vihan Jain, Eugene Ie, Fei Sha

Abstract

Das Erlernen von Anweisungen ist von grundlegender Bedeutung für autonome Agenten im Bereich des vision-und-sprache-Navigation (Vision-and-Language Navigation, VLN). In diesem Paper untersuchen wir, wie ein Agent lange Wege zurücklegen kann, wenn er aus einer Korpus-Datenmenge gelernt wird, die aus kürzeren Anweisungen besteht. Wir zeigen, dass bestehende State-of-the-Art-Agenten keine gute Generalisierungsfähigkeit aufweisen. Dazu präsentieren wir BabyWalk, einen neuen VLN-Agenten, der durch die Zerlegung langer Anweisungen in kürzere Teile (BabySteps) und deren sequenzielle Ausführung lernt, sich zu navigieren. Der Agent verwendet einen speziell gestalteten Gedächtnis-Puffer, um seine vergangenen Erfahrungen in Kontexte für zukünftige Schritte zu transformieren. Der Lernprozess besteht aus zwei Phasen. In der ersten Phase nutzt der Agent Nachahmungslernen aus Demonstrationen, um die BabySteps zu bewältigen. In der zweiten Phase wendet der Agent kurrikulumbasiertes Verstärkungslernen an, um die Belohnungen bei Navigationsszenarien mit stetig länger werdenden Anweisungen zu maximieren. Wir erstellen zwei neue Benchmark-Datensätze (für lange Navigationstasks) und verwenden sie gemeinsam mit bestehenden Datensätzen, um die Generalisierungsfähigkeit von BabyWalk zu evaluieren. Empirische Ergebnisse zeigen, dass BabyWalk auf mehreren Metriken Spitzenleistungen erzielt, insbesondere hervorragend in der Ausführung langer Anweisungen ist. Die Codes und Datensätze sind auf unserer Projektseite https://github.com/Sha-Lab/babywalk veröffentlicht.