vor 15 Tagen

EnvEdit: Umgebungsditing für Vision-and-Language-Navigation

Jialu Li, Hao Tan, Mohit Bansal

Abstract

In der Vision-and-Language-Navigation (VLN) muss ein Agent sich basierend auf natürlichsprachlichen Anweisungen durch eine Umgebung bewegen. Aufgrund der begrenzten verfügbaren Daten für die Trainingsphase und der endlichen Vielfalt an Navigationsumgebungen ist es für den Agenten schwierig, sich auf neue, bisher nicht gesehene Umgebungen zu verallgemeinern. Um dieses Problem anzugehen, schlagen wir EnvEdit vor – eine Methode zur Datenverstärkung, die neue Umgebungen durch Bearbeitung bestehender Umgebungen erzeugt, um einen allgemeineren Agenten zu trainieren. Unsere vergrößerten Umgebungen können sich von den gesehenen Umgebungen in drei unterschiedlichen Aspekten unterscheiden: Stil, Objektappearance und Objektklassen. Das Training auf diesen editierten Umgebungen verhindert eine Überanpassung an die vorhandenen Umgebungen und verbessert die Generalisierungsfähigkeit auf neue, bisher nicht gesehene Umgebungen. Empirisch zeigen wir auf beiden Datensätzen Room-to-Room und multilingualem Room-Across-Room, dass unsere vorgeschlagene EnvEdit-Methode erhebliche Verbesserungen in allen Metriken sowohl bei vortrainierten als auch bei nicht vortrainierten VLN-Agenten erzielt und die neue State-of-the-Art-Leistung auf dem Test-Leaderboard erreicht. Zudem kombinieren wir VLN-Agenten, die auf unterschiedlich editierten Umgebungen trainiert wurden, und zeigen, dass diese Editiermethoden komplementär wirken. Der Quellcode und die Daten sind unter https://github.com/jialuli-luka/EnvEdit verfügbar.