HyperAIHyperAI

Command Palette

Search for a command to run...

التنقل المرتبط بالرؤية واللغة: تفسير تعليمات التنقل المستندة بصرياً في البيئات الحقيقية

Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton van den Hengel

الملخص

لقد كان الروبوت القادر على تنفيذ تعليمات اللغة الطبيعية حلمًا منذ قبل أن تخيل سلسلة الرسوم المتحركة "جيتسون" حياة راحة تُدار بواسطة أسطول من الروبوتات الودودة. وهو حلم يظل بعيد المنال بشكل العنيد. ومع ذلك، فقد حققت التقدمات الحديثة في طرق الرؤية واللغة تقدمًا مذهلاً في مجالات مرتبطة وثيقًا. وهذا مهم لأن روبوتًا يفسر تعليمات التنقل باللغة الطبيعية بناءً على ما يراه يقوم بعملية رؤية ولغة مشابهة لـ الإجابة على الأسئلة البصرية (Visual Question Answering). يمكن تفسير كلا المهمتين كمشكلات ترجمة متتابعة مسندة بصريًا، وتنطبق العديد من نفس الطرق عليهما. لتمكين وتشجيع تطبيق طرق الرؤية واللغة على مشكلة فهم تعليمات التنقل المرتبطة بصريًا، نقدم محاكي Matterport3D -- وهو بيئة تعليم تعزيزي كبيرة الحجم تستند إلى صور حقيقية. باستخدام هذا المحاكي، الذي يمكن أن يدعم في المستقبل مجموعة من المهام المرتبطة بالرؤية واللغة المتجسدة، نوفر أول مجموعة بيانات مرجعية للتنقل باللغة الطبيعية المرتبط بصريًا في المباني الحقيقية -- مجموعة بيانات Room-to-Room (R2R).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp