vor 16 Tagen

Room-Across-Room: Multilingual Vision-and-Language Navigation mit dichter spatiotemporaler Grundlage

Alexander Ku, Peter Anderson, Roma Patel, Eugene Ie, Jason Baldridge

Abstract

Wir stellen Room-Across-Room (RxR) vor, ein neues Vision-and-Language-Navigation-(VLN)-Datensatz. RxR ist mehrsprachig (Englisch, Hindi und Telugu) und größer (mehr Pfade und Anweisungen) als andere VLN-Datensätze. Er betont die Rolle der Sprache im VLN, indem er bekannte Verzerrungen in den Pfaden adressiert und eine höhere Anzahl an Verweisen auf sichtbare Entitäten hervorruft. Zudem ist jedes Wort einer Anweisung zeitlich mit den virtuellen Pose-Daten der Anweisungsersteller und -validierer synchronisiert. Wir etablieren Baseline-Ergebnisse für monolinguale und mehrsprachige Szenarien sowie für Multitask-Lernen unter Einbeziehung von Room-to-Room-Anmerkungen. Außerdem präsentieren wir Ergebnisse für ein Modell, das aus synchronisierten Pose-Verläufen lernt, indem es sich ausschließlich auf jene Teile der Panoramaansicht konzentriert, die in menschlichen Demonstrationen beachtet wurden. Die Größe, der Umfang und die Detailgenauigkeit von RxR erweitern die Grenzen der Forschung zu körperhaften Sprachagenten in simulierten, foto-realistischen Umgebungen erheblich.