Command Palette
Search for a command to run...
التنقل المرتبط بالرؤية واللغة: تفسير تعليمات التنقل المستندة بصرياً في البيئات الحقيقية
التنقل المرتبط بالرؤية واللغة: تفسير تعليمات التنقل المستندة بصرياً في البيئات الحقيقية
Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton van den Hengel
الملخص
لقد كان الروبوت القادر على تنفيذ تعليمات اللغة الطبيعية حلمًا منذ قبل أن تخيل سلسلة الرسوم المتحركة "جيتسون" حياة راحة تُدار بواسطة أسطول من الروبوتات الودودة. وهو حلم يظل بعيد المنال بشكل العنيد. ومع ذلك، فقد حققت التقدمات الحديثة في طرق الرؤية واللغة تقدمًا مذهلاً في مجالات مرتبطة وثيقًا. وهذا مهم لأن روبوتًا يفسر تعليمات التنقل باللغة الطبيعية بناءً على ما يراه يقوم بعملية رؤية ولغة مشابهة لـ الإجابة على الأسئلة البصرية (Visual Question Answering). يمكن تفسير كلا المهمتين كمشكلات ترجمة متتابعة مسندة بصريًا، وتنطبق العديد من نفس الطرق عليهما. لتمكين وتشجيع تطبيق طرق الرؤية واللغة على مشكلة فهم تعليمات التنقل المرتبطة بصريًا، نقدم محاكي Matterport3D -- وهو بيئة تعليم تعزيزي كبيرة الحجم تستند إلى صور حقيقية. باستخدام هذا المحاكي، الذي يمكن أن يدعم في المستقبل مجموعة من المهام المرتبطة بالرؤية واللغة المتجسدة، نوفر أول مجموعة بيانات مرجعية للتنقل باللغة الطبيعية المرتبط بصريًا في المباني الحقيقية -- مجموعة بيانات Room-to-Room (R2R).