HyperAIHyperAI
vor 11 Tagen

Geschichtsbewusster multimodaler Transformer für die visuell-sprachliche Navigation

Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev
Geschichtsbewusster multimodaler Transformer für die visuell-sprachliche Navigation
Abstract

Vision-and-Language Navigation (VLN) zielt darauf ab, autonome visuelle Agenten zu entwickeln, die Anweisungen folgen und sich in realen Szenen bewegen können. Um zuvor besuchte Orte und ausgeführte Aktionen zu speichern, implementieren die meisten Ansätze zur VLN Gedächtnis mittels rekurrenter Zustände. Stattdessen stellen wir einen history-aware Multimodal Transformer (HAMT) vor, der eine langfristige Historie effizient in die multimodale Entscheidungsfindung integriert. HAMT kodiert alle vergangenen panoramischen Beobachtungen effizient mittels eines hierarchischen Vision Transformers (ViT), der zunächst einzelne Bilder mit ViT kodiert, dann die räumlichen Beziehungen zwischen den Bildern innerhalb einer panoramischen Aufnahme modelliert und schließlich die zeitlichen Beziehungen zwischen den Panoramen in der Historie berücksichtigt. Anschließend kombiniert er gemeinsam Text, Historie und aktuelle Beobachtung, um die nächste Aktion vorherzusagen. Zunächst trainieren wir HAMT end-to-end mittels mehrerer Proxy-Aufgaben, darunter die Vorhersage einzelner Schritte und die Vorhersage räumlicher Beziehungen, und nutzen anschließend Verstärkendes Lernen, um die Navigationspolitik weiter zu verbessern. HAMT erreicht neue SOTA-Ergebnisse auf einer breiten Palette von VLN-Aufgaben, einschließlich VLN mit fein granularen Anweisungen (R2R, RxR), hochleveligen Anweisungen (R2R-Last, REVERIE), Dialogen (CVDN) sowie langfristiger VLN (R4R, R2R-Back). Wir zeigen, dass HAMT insbesondere für Navigationsszenarien mit längeren Trajektorien besonders effektiv ist.

Geschichtsbewusster multimodaler Transformer für die visuell-sprachliche Navigation | Neueste Forschungsarbeiten | HyperAI