HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Entwicklung eines generischen Agenten für Vision-and-Language-Navigation durch Vortrainierung

Weituo Hao Chunyuan Li Xiujun Li Lawrence Carin Jianfeng Gao

Zusammenfassung

Das Erlernen der Navigation in einer visuellen Umgebung anhand natürlicher Sprachanweisungen ist eine anspruchsvolle Aufgabe, da die multimodalen Eingaben für den Agenten stark variabel sind und die Trainingsdaten für neue Aufgaben oft begrenzt sind. In diesem Paper präsentieren wir den ersten Prätrainings- und Feinabstimmungsansatz für Aufgaben im Bereich Vision-and-Language-Navigation (VLN). Durch das Training auf einer großen Menge an Bild-Text-Aktion-Tripeln in einer selbstüberwachten Lernweise erzeugt das prätrainierte Modell generische Darstellungen visueller Umgebungen und Sprachanweisungen. Es kann problemlos als Plug-in für bestehende VLN-Frameworks eingesetzt werden und führt zum vorgeschlagenen Agenten namens Prevalent. Dieser lernt effizienter in neuen Aufgaben und generalisiert besser in bisher unbekannten Umgebungen. Die Leistungsfähigkeit wird an drei VLN-Aufgaben validiert. Auf dem Room-to-Room-Benchmark verbessert unser Modell die bisher beste Leistung von 47 % auf 51 % hinsichtlich der Erfolgsrate, gewichtet nach Pfadlänge. Zudem ist die gelernte Darstellung übertragbar auf andere VLN-Aufgaben. Auf zwei jüngeren Aufgaben – Vision-and-Dialog-Navigation und „Help, Anna!“ – erreicht der vorgeschlagene Prevalent eine signifikante Verbesserung gegenüber bestehenden Methoden und erzielt eine neue state-of-the-art-Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zur Entwicklung eines generischen Agenten für Vision-and-Language-Navigation durch Vortrainierung | Paper | HyperAI