HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen aus unlabeled 3D-Umgebungen für Vision-and-Language-Navigation

Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev

Zusammenfassung

Bei der visuell-sprachlichen Navigation (Vision-and-Language Navigation, VLN) muss ein körperhaftes Agent in realistischen 3D-Umgebungen gemäß natürlichen Sprachanweisungen navigieren. Ein zentrales Hindernis bestehender VLN-Ansätze ist der Mangel an ausreichendem Trainingsdatenmaterial, was zu einer unzureichenden Generalisierungsfähigkeit in unbekannten Umgebungen führt. Während VLN-Daten üblicherweise manuell erfasst werden, ist dieser Ansatz kostspielig und behindert die Skalierbarkeit. In dieser Arbeit adressieren wir das Problem der Datensparsamkeit, indem wir vorschlagen, aus 900 unlabeled 3D-Gebäuden aus dem HM3D-Datensatz eine großskalige VLN-Datensammlung automatisch zu generieren. Für jedes Gebäude erstellen wir einen Navigationsgraphen und übertragen Objektprediktionen aus 2D-Bildern mittels cross-view-Konsistenz, um pseudo-3D-Objektetiketten zu erzeugen. Anschließend feinjustieren wir ein vortrainiertes Sprachmodell unter Verwendung dieser pseudo-Objektetiketten als Prompt, um die multimodale Kluft bei der Anweisungsgenerierung zu verringern. Das resultierende Datenset HM3D-AutoVLN ist hinsichtlich der Anzahl an Navigationsumgebungen und Anweisungen um eine Größenordnung größer als bestehende VLN-Datensätze. Experimentell zeigen wir, dass HM3D-AutoVLN die Generalisierungsfähigkeit der resultierenden VLN-Modelle erheblich verbessert. Auf der SPL-Metrik erreichen wir gegenüber dem Stand der Technik eine Verbesserung um 7,1 % und 8,1 % auf den bisher unbekannten Validierungssplits der Datensätze REVERIE und SOON.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp