vor 17 Tagen

Zur Entwicklung eines generischen Agenten für Vision-and-Language-Navigation durch Vortrainierung

Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao

Abstract

Das Erlernen der Navigation in einer visuellen Umgebung anhand natürlicher Sprachanweisungen ist eine anspruchsvolle Aufgabe, da die multimodalen Eingaben für den Agenten stark variabel sind und die Trainingsdaten für neue Aufgaben oft begrenzt sind. In diesem Paper präsentieren wir den ersten Prätrainings- und Feinabstimmungsansatz für Aufgaben im Bereich Vision-and-Language-Navigation (VLN). Durch das Training auf einer großen Menge an Bild-Text-Aktion-Tripeln in einer selbstüberwachten Lernweise erzeugt das prätrainierte Modell generische Darstellungen visueller Umgebungen und Sprachanweisungen. Es kann problemlos als Plug-in für bestehende VLN-Frameworks eingesetzt werden und führt zum vorgeschlagenen Agenten namens Prevalent. Dieser lernt effizienter in neuen Aufgaben und generalisiert besser in bisher unbekannten Umgebungen. Die Leistungsfähigkeit wird an drei VLN-Aufgaben validiert. Auf dem Room-to-Room-Benchmark verbessert unser Modell die bisher beste Leistung von 47 % auf 51 % hinsichtlich der Erfolgsrate, gewichtet nach Pfadlänge. Zudem ist die gelernte Darstellung übertragbar auf andere VLN-Aufgaben. Auf zwei jüngeren Aufgaben – Vision-and-Dialog-Navigation und „Help, Anna!“ – erreicht der vorgeschlagene Prevalent eine signifikante Verbesserung gegenüber bestehenden Methoden und erzielt eine neue state-of-the-art-Leistung.