HyperAIHyperAI

Command Palette

Search for a command to run...

Room-Across-Room: Multilingual Vision-and-Language Navigation mit dichter spatiotemporaler Grundlage

Alexander Ku Peter Anderson Roma Patel Eugene Ie Jason Baldridge

Zusammenfassung

Wir stellen Room-Across-Room (RxR) vor, ein neues Vision-and-Language-Navigation-(VLN)-Datensatz. RxR ist mehrsprachig (Englisch, Hindi und Telugu) und größer (mehr Pfade und Anweisungen) als andere VLN-Datensätze. Er betont die Rolle der Sprache im VLN, indem er bekannte Verzerrungen in den Pfaden adressiert und eine höhere Anzahl an Verweisen auf sichtbare Entitäten hervorruft. Zudem ist jedes Wort einer Anweisung zeitlich mit den virtuellen Pose-Daten der Anweisungsersteller und -validierer synchronisiert. Wir etablieren Baseline-Ergebnisse für monolinguale und mehrsprachige Szenarien sowie für Multitask-Lernen unter Einbeziehung von Room-to-Room-Anmerkungen. Außerdem präsentieren wir Ergebnisse für ein Modell, das aus synchronisierten Pose-Verläufen lernt, indem es sich ausschließlich auf jene Teile der Panoramaansicht konzentriert, die in menschlichen Demonstrationen beachtet wurden. Die Größe, der Umfang und die Detailgenauigkeit von RxR erweitern die Grenzen der Forschung zu körperhaften Sprachagenten in simulierten, foto-realistischen Umgebungen erheblich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp