HyperAIHyperAI
vor 19 Tagen

Lernen aus unlabeled 3D-Umgebungen für Vision-and-Language-Navigation

Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev
Lernen aus unlabeled 3D-Umgebungen für Vision-and-Language-Navigation
Abstract

Bei der visuell-sprachlichen Navigation (Vision-and-Language Navigation, VLN) muss ein körperhaftes Agent in realistischen 3D-Umgebungen gemäß natürlichen Sprachanweisungen navigieren. Ein zentrales Hindernis bestehender VLN-Ansätze ist der Mangel an ausreichendem Trainingsdatenmaterial, was zu einer unzureichenden Generalisierungsfähigkeit in unbekannten Umgebungen führt. Während VLN-Daten üblicherweise manuell erfasst werden, ist dieser Ansatz kostspielig und behindert die Skalierbarkeit. In dieser Arbeit adressieren wir das Problem der Datensparsamkeit, indem wir vorschlagen, aus 900 unlabeled 3D-Gebäuden aus dem HM3D-Datensatz eine großskalige VLN-Datensammlung automatisch zu generieren. Für jedes Gebäude erstellen wir einen Navigationsgraphen und übertragen Objektprediktionen aus 2D-Bildern mittels cross-view-Konsistenz, um pseudo-3D-Objektetiketten zu erzeugen. Anschließend feinjustieren wir ein vortrainiertes Sprachmodell unter Verwendung dieser pseudo-Objektetiketten als Prompt, um die multimodale Kluft bei der Anweisungsgenerierung zu verringern. Das resultierende Datenset HM3D-AutoVLN ist hinsichtlich der Anzahl an Navigationsumgebungen und Anweisungen um eine Größenordnung größer als bestehende VLN-Datensätze. Experimentell zeigen wir, dass HM3D-AutoVLN die Generalisierungsfähigkeit der resultierenden VLN-Modelle erheblich verbessert. Auf der SPL-Metrik erreichen wir gegenüber dem Stand der Technik eine Verbesserung um 7,1 % und 8,1 % auf den bisher unbekannten Validierungssplits der Datensätze REVERIE und SOON.

Lernen aus unlabeled 3D-Umgebungen für Vision-and-Language-Navigation | Forschungsarbeiten | HyperAI