HyperAIHyperAI

Command Palette

Search for a command to run...

HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

Zusammenfassung

Die Vortrainierung wurde in einigen jüngeren Arbeiten für Vision-and-Language Navigation (VLN) übernommen. Allerdings verfügen bisherige Vortrainierungsansätze für VLN entweder nicht über die Fähigkeit, zukünftige Aktionen vorherzusagen, oder ignorieren die Trajektorienkontexte, was für einen gierigen Navigationprozess entscheidend ist. In dieser Arbeit schlagen wir ein neuartiges, historie- und ordnungsorientiertes Vortrainierungsparadigma (HOP) mit vernetzten VLN-spezifischen Zielen vor, das die vergangenen Beobachtungen nutzt und die Vorhersage zukünftiger Aktionen unterstützt, um die Lernung von räumlich-zeitlichen visuell-textuellen Korrespondenzen sowie die Entscheidungsfähigkeit des Agents zu fördern. Insbesondere ergänzen wir die üblicherweise verwendeten Aufgaben Masked Language Modeling (MLM) und Trajectory-Instruction Matching (TIM) um zwei Proxy-Aufgaben zur Modellierung zeitlicher Ordnungsinformation: Trajectory Order Modeling (TOM) und Group Order Modeling (GOM). Zudem wird die Navigationsschritt-Vorhersage durch die Einführung der Aufgabe Action Prediction with History (APH) verbessert, die die historischen visuellen Wahrnehmungen berücksichtigt. Ausführliche experimentelle Ergebnisse auf vier nachgeschalteten VLN-Aufgaben (R2R, REVERIE, NDH, RxR) belegen die Wirksamkeit unseres vorgeschlagenen Ansatzes im Vergleich zu mehreren state-of-the-art-Agenten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation | Paper | HyperAI