غرفة مقابل غرفة: توجيه بصري ولغوي متعدد اللغات مع تثبيت كثيف زمانيًا ومكانية

نُقدّم مجموعة بيانات جديدة تُسمّى "غرفة-عبر-غرفة" (RxR)، وهي مجموعة بيانات جديدة لمهام التنقل البصري واللغوي (VLN). تتميز RxR بأنها متعددة اللغات (الإنجليزية، الهندية، والتيلوغو)، وأكبر من مجموعات بيانات VLN الأخرى من حيث عدد المسارات والتعليمات. وتركز RxR على دور اللغة في مهام التنقل البصري واللغوي من خلال معالجة التحيّزات المعروفة في المسارات، وتحفيز إشارات أكثر إلى الكيانات المرئية. بالإضافة إلى ذلك، يتم محاذاة كل كلمة في التعليمات مع الموضع الافتراضي (الوضع الافتراضي) لمن صاغوا التعليمات وحققوا صحتها. وقد قمنا بتحديد قيم أساسية للإعدادات أحادية اللغة ومتعددة اللغات، وكذلك للتعلم متعدد المهام عند تضمين ملاحظات "من غرفة إلى غرفة". كما نقدّم نتائج نموذج يتعلم من آثار الموضع المتماسكة، مع التركيز فقط على الأجزاء من المشهد الدائري التي تم الانتباه إليها في العروض البشرية. إن الحجم والاتساع والتفاصيل التي تتميز بها مجموعة RxR تمتد بشكل كبير إلى حدود البحث حول الوكلاء اللغويين المُتَمَثَّلين في البيئات المُحاكاة الواقعية الصورية.