HyperAIHyperAI

Command Palette

Search for a command to run...

EnvEdit: Umgebungsditing für Vision-and-Language-Navigation

Jialu Li Hao Tan Mohit Bansal

Zusammenfassung

In der Vision-and-Language-Navigation (VLN) muss ein Agent sich basierend auf natürlichsprachlichen Anweisungen durch eine Umgebung bewegen. Aufgrund der begrenzten verfügbaren Daten für die Trainingsphase und der endlichen Vielfalt an Navigationsumgebungen ist es für den Agenten schwierig, sich auf neue, bisher nicht gesehene Umgebungen zu verallgemeinern. Um dieses Problem anzugehen, schlagen wir EnvEdit vor – eine Methode zur Datenverstärkung, die neue Umgebungen durch Bearbeitung bestehender Umgebungen erzeugt, um einen allgemeineren Agenten zu trainieren. Unsere vergrößerten Umgebungen können sich von den gesehenen Umgebungen in drei unterschiedlichen Aspekten unterscheiden: Stil, Objektappearance und Objektklassen. Das Training auf diesen editierten Umgebungen verhindert eine Überanpassung an die vorhandenen Umgebungen und verbessert die Generalisierungsfähigkeit auf neue, bisher nicht gesehene Umgebungen. Empirisch zeigen wir auf beiden Datensätzen Room-to-Room und multilingualem Room-Across-Room, dass unsere vorgeschlagene EnvEdit-Methode erhebliche Verbesserungen in allen Metriken sowohl bei vortrainierten als auch bei nicht vortrainierten VLN-Agenten erzielt und die neue State-of-the-Art-Leistung auf dem Test-Leaderboard erreicht. Zudem kombinieren wir VLN-Agenten, die auf unterschiedlich editierten Umgebungen trainiert wurden, und zeigen, dass diese Editiermethoden komplementär wirken. Der Quellcode und die Daten sind unter https://github.com/jialuli-luka/EnvEdit verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EnvEdit: Umgebungsditing für Vision-and-Language-Navigation | Paper | HyperAI