umweltunabhängiges Multitask-Lernen für natürlichsprachlich verankerte Navigation

Neueste Forschungsanstrengungen ermöglichen die Untersuchung von natürlichsprachlich fundierter Navigation in foto-realistischen Umgebungen, beispielsweise das Folgen natürlicher Sprachanweisungen oder Dialoge. Allerdings neigen bestehende Methoden dazu, sich an die Trainingsdaten in bekannten Umgebungen anzupassen, und verlieren ihre Generalisierungsfähigkeit in bisher unbekannten Umgebungen. Um die Lücke zwischen gesehenen und unbekannten Umgebungen zu schließen, zielen wir darauf ab, ein generalisierbares Navigationssystem aus zwei neuen Perspektiven zu lernen: (1) Wir führen ein Multitask-Navigationssystem ein, das nahtlos sowohl auf Aufgaben des Vision-Language-Navigation (VLN) als auch auf Aufgaben der Navigation aus Dialogverlauf (NDH) trainiert werden kann. Dieses System profitiert von reichhaltigerer natürlicher Sprachführung und ermöglicht effektiven Wissenstransfer zwischen den Aufgaben. (2) Wir schlagen vor, umgebungsunabhängige Darstellungen für die Navigationspolitik zu lernen, die invariant gegenüber den während des Trainings gesehenen Umgebungen sind, wodurch eine bessere Generalisierung auf unbekannte Umgebungen erreicht wird. Umfangreiche Experimente zeigen, dass die umgebungsunabhängige Multitask-Lernmethode die Leistungsunterschiede zwischen gesehenen und unbekannten Umgebungen erheblich verringert. Das so trainierte Navigationssystem übertrifft die Baselines auf unbekannten Umgebungen um 16 % (relativer Erfolgsrate bei VLN) und um 120 % (Zielprogress bei NDH). Unser Beitrag zum CVDN-Leaderboard etabliert eine neue State-of-the-Art-Leistung für die NDH-Aufgabe auf dem holdout-Testset. Der Quellcode ist unter https://github.com/google-research/valan verfügbar.