التنقل البصري-اللغوي مع خلط بيئي عشوائي

تتطلب مهام التوجيه البصري-اللغوي (VLN) من الوكيل التحرك خطوة بخطوة مع استقبال الملاحظات البصرية وفهم التعليمات باللغة الطبيعية. إن الانحياز الكبير في البيانات، الناتج عن الفجوة بين حجم البيانات الصغير ومساحة التوجيه الكبيرة، يجعل مهمة VLN تحديًا كبيرًا. وقد اقترح العمل السابق طرقًا مختلفة لتعزيز البيانات بهدف تقليل هذا الانحياز. ومع ذلك، فإن هذه الطرق لا تقلل صراحةً من الانحياز في البيانات عبر مشاهد المنازل المختلفة. وبالتالي، يُصبح الوكيل عرضة للانحياز الزائد نحو المشاهد التي شوهدت مسبقًا، مما يؤدي إلى أداء ضعيف في المشاهد غير المرئية. ولحل هذه المشكلة، نقترح طريقة "الخلط البيئي العشوائي" (REM)، التي تُولّد مشاهد منازل متشابكة عبر مزج البيئات. بشكل محدد، نبدأ بتحديد وجهات نظر رئيسية بناءً على رسم بياني للاتصال بين الغرف لكل مشهد. ثم نربط بشكل متقاطع بين وجهات النظر الرئيسية لمشاهد مختلفة لتكوين مشاهد مُعززة. وأخيرًا، نُولّد أزواج التعليمات-المسار المُعززة داخل هذه المشاهد المتشابكة. أظهرت النتائج التجريبية على مجموعات بيانات معيارية أن بيانات التحسين الناتجة عن REM تساعد الوكيل على تقليل الفجوة في الأداء بين البيئات المرئية وغير المرئية، وتحسين الأداء العام، مما يجعل نموذجنا الأفضل بين جميع النماذج الحالية على معيار VLN القياسي. تم إصدار الكود: https://github.com/LCFractal/VLNREM.