التنقل المرتبط بالرؤية واللغة: تفسير تعليمات التنقل المستندة بصرياً في البيئات الحقيقية

لقد كان الروبوت القادر على تنفيذ تعليمات اللغة الطبيعية حلمًا منذ قبل أن تخيل سلسلة الرسوم المتحركة "جيتسون" حياة راحة تُدار بواسطة أسطول من الروبوتات الودودة. وهو حلم يظل بعيد المنال بشكل العنيد. ومع ذلك، فقد حققت التقدمات الحديثة في طرق الرؤية واللغة تقدمًا مذهلاً في مجالات مرتبطة وثيقًا. وهذا مهم لأن روبوتًا يفسر تعليمات التنقل باللغة الطبيعية بناءً على ما يراه يقوم بعملية رؤية ولغة مشابهة لـ الإجابة على الأسئلة البصرية (Visual Question Answering). يمكن تفسير كلا المهمتين كمشكلات ترجمة متتابعة مسندة بصريًا، وتنطبق العديد من نفس الطرق عليهما. لتمكين وتشجيع تطبيق طرق الرؤية واللغة على مشكلة فهم تعليمات التنقل المرتبطة بصريًا، نقدم محاكي Matterport3D -- وهو بيئة تعليم تعزيزي كبيرة الحجم تستند إلى صور حقيقية. باستخدام هذا المحاكي، الذي يمكن أن يدعم في المستقبل مجموعة من المهام المرتبطة بالرؤية واللغة المتجسدة، نوفر أول مجموعة بيانات مرجعية للتنقل باللغة الطبيعية المرتبط بصريًا في المباني الحقيقية -- مجموعة بيانات Room-to-Room (R2R).