HyperAIHyperAI
منذ 2 أشهر

التنقل المرتبط بالرؤية واللغة: تفسير تعليمات التنقل المستندة بصرياً في البيئات الحقيقية

Peter Anderson; Qi Wu; Damien Teney; Jake Bruce; Mark Johnson; Niko Sünderhauf; Ian Reid; Stephen Gould; Anton van den Hengel
التنقل المرتبط بالرؤية واللغة: تفسير تعليمات التنقل المستندة بصرياً في البيئات الحقيقية
الملخص

لقد كان الروبوت القادر على تنفيذ تعليمات اللغة الطبيعية حلمًا منذ قبل أن تخيل سلسلة الرسوم المتحركة "جيتسون" حياة راحة تُدار بواسطة أسطول من الروبوتات الودودة. وهو حلم يظل بعيد المنال بشكل العنيد. ومع ذلك، فقد حققت التقدمات الحديثة في طرق الرؤية واللغة تقدمًا مذهلاً في مجالات مرتبطة وثيقًا. وهذا مهم لأن روبوتًا يفسر تعليمات التنقل باللغة الطبيعية بناءً على ما يراه يقوم بعملية رؤية ولغة مشابهة لـ الإجابة على الأسئلة البصرية (Visual Question Answering). يمكن تفسير كلا المهمتين كمشكلات ترجمة متتابعة مسندة بصريًا، وتنطبق العديد من نفس الطرق عليهما. لتمكين وتشجيع تطبيق طرق الرؤية واللغة على مشكلة فهم تعليمات التنقل المرتبطة بصريًا، نقدم محاكي Matterport3D -- وهو بيئة تعليم تعزيزي كبيرة الحجم تستند إلى صور حقيقية. باستخدام هذا المحاكي، الذي يمكن أن يدعم في المستقبل مجموعة من المهام المرتبطة بالرؤية واللغة المتجسدة، نوفر أول مجموعة بيانات مرجعية للتنقل باللغة الطبيعية المرتبط بصريًا في المباني الحقيقية -- مجموعة بيانات Room-to-Room (R2R).

التنقل المرتبط بالرؤية واللغة: تفسير تعليمات التنقل المستندة بصرياً في البيئات الحقيقية | الأوراق البحثية | HyperAI