HyperAIHyperAI
vor 19 Tagen

HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation

Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu
HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation
Abstract

Die Vortrainierung wurde in einigen jüngeren Arbeiten für Vision-and-Language Navigation (VLN) übernommen. Allerdings verfügen bisherige Vortrainierungsansätze für VLN entweder nicht über die Fähigkeit, zukünftige Aktionen vorherzusagen, oder ignorieren die Trajektorienkontexte, was für einen gierigen Navigationprozess entscheidend ist. In dieser Arbeit schlagen wir ein neuartiges, historie- und ordnungsorientiertes Vortrainierungsparadigma (HOP) mit vernetzten VLN-spezifischen Zielen vor, das die vergangenen Beobachtungen nutzt und die Vorhersage zukünftiger Aktionen unterstützt, um die Lernung von räumlich-zeitlichen visuell-textuellen Korrespondenzen sowie die Entscheidungsfähigkeit des Agents zu fördern. Insbesondere ergänzen wir die üblicherweise verwendeten Aufgaben Masked Language Modeling (MLM) und Trajectory-Instruction Matching (TIM) um zwei Proxy-Aufgaben zur Modellierung zeitlicher Ordnungsinformation: Trajectory Order Modeling (TOM) und Group Order Modeling (GOM). Zudem wird die Navigationsschritt-Vorhersage durch die Einführung der Aufgabe Action Prediction with History (APH) verbessert, die die historischen visuellen Wahrnehmungen berücksichtigt. Ausführliche experimentelle Ergebnisse auf vier nachgeschalteten VLN-Aufgaben (R2R, REVERIE, NDH, RxR) belegen die Wirksamkeit unseres vorgeschlagenen Ansatzes im Vergleich zu mehreren state-of-the-art-Agenten.

HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation | Forschungsarbeiten | HyperAI