vor 6 Monaten

Zusammenfassung

Die Vortrainierung wurde in einigen jüngeren Arbeiten für Vision-and-Language Navigation (VLN) übernommen. Allerdings verfügen bisherige Vortrainierungsansätze für VLN entweder nicht über die Fähigkeit, zukünftige Aktionen vorherzusagen, oder ignorieren die Trajektorienkontexte, was für einen gierigen Navigationprozess entscheidend ist. In dieser Arbeit schlagen wir ein neuartiges, historie- und ordnungsorientiertes Vortrainierungsparadigma (HOP) mit vernetzten VLN-spezifischen Zielen vor, das die vergangenen Beobachtungen nutzt und die Vorhersage zukünftiger Aktionen unterstützt, um die Lernung von räumlich-zeitlichen visuell-textuellen Korrespondenzen sowie die Entscheidungsfähigkeit des Agents zu fördern. Insbesondere ergänzen wir die üblicherweise verwendeten Aufgaben Masked Language Modeling (MLM) und Trajectory-Instruction Matching (TIM) um zwei Proxy-Aufgaben zur Modellierung zeitlicher Ordnungsinformation: Trajectory Order Modeling (TOM) und Group Order Modeling (GOM). Zudem wird die Navigationsschritt-Vorhersage durch die Einführung der Aufgabe Action Prediction with History (APH) verbessert, die die historischen visuellen Wahrnehmungen berücksichtigt. Ausführliche experimentelle Ergebnisse auf vier nachgeschalteten VLN-Aufgaben (R2R, REVERIE, NDH, RxR) belegen die Wirksamkeit unseres vorgeschlagenen Ansatzes im Vergleich zu mehreren state-of-the-art-Agenten.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Natürliche Sprachverarbeitung

Transformer

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Natürliche Sprachverarbeitung

Transformer

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HOP: History- und Orderbewusstes Pre-training für Vision- und Sprache Navigation

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters