HyperAIHyperAI

Command Palette

Search for a command to run...

التنقل البصري-اللغوي مع خلط بيئي عشوائي

Chong Liu Fengda Zhu Xiaojun Chang Xiaodan Liang Zongyuan Ge Yi-Dong Shen

الملخص

تتطلب مهام التوجيه البصري-اللغوي (VLN) من الوكيل التحرك خطوة بخطوة مع استقبال الملاحظات البصرية وفهم التعليمات باللغة الطبيعية. إن الانحياز الكبير في البيانات، الناتج عن الفجوة بين حجم البيانات الصغير ومساحة التوجيه الكبيرة، يجعل مهمة VLN تحديًا كبيرًا. وقد اقترح العمل السابق طرقًا مختلفة لتعزيز البيانات بهدف تقليل هذا الانحياز. ومع ذلك، فإن هذه الطرق لا تقلل صراحةً من الانحياز في البيانات عبر مشاهد المنازل المختلفة. وبالتالي، يُصبح الوكيل عرضة للانحياز الزائد نحو المشاهد التي شوهدت مسبقًا، مما يؤدي إلى أداء ضعيف في المشاهد غير المرئية. ولحل هذه المشكلة، نقترح طريقة "الخلط البيئي العشوائي" (REM)، التي تُولّد مشاهد منازل متشابكة عبر مزج البيئات. بشكل محدد، نبدأ بتحديد وجهات نظر رئيسية بناءً على رسم بياني للاتصال بين الغرف لكل مشهد. ثم نربط بشكل متقاطع بين وجهات النظر الرئيسية لمشاهد مختلفة لتكوين مشاهد مُعززة. وأخيرًا، نُولّد أزواج التعليمات-المسار المُعززة داخل هذه المشاهد المتشابكة. أظهرت النتائج التجريبية على مجموعات بيانات معيارية أن بيانات التحسين الناتجة عن REM تساعد الوكيل على تقليل الفجوة في الأداء بين البيئات المرئية وغير المرئية، وتحسين الأداء العام، مما يجعل نموذجنا الأفضل بين جميع النماذج الحالية على معيار VLN القياسي. تم إصدار الكود: https://github.com/LCFractal/VLNREM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp