BabyWalk: التقدم أكثر في التوجيه البصري واللغوي من خلال اتخاذ خطوات صغيرة

إن القدرة على اتباع التعليمات تمثل عنصرًا أساسيًا للوكالات المستقلة في الملاحة البصرية واللغوية (VLN). في هذه الورقة، ندرس كيف يمكن للوكيل التغلب على مسارات طويلة عند التعلم من مجموعة بيانات تتكون من مسارات قصيرة. نُظهر أن الوكلاء ذوي الأداء الأفضل حاليًا لا يتمتعون بقدرة تعميم جيدة. ولحل هذه المشكلة، نقترح "BabyWalk"، وكيل جديد لمهام الملاحة البصرية واللغوية، يتم تدريبه على التحرك من خلال تفكيك التعليمات الطويلة إلى تعليمات أقصر (تسمى "BabySteps") ثم تنفيذها تباعًا. يستخدم الوكيل ذاكرة مخصصة (Buffer ذا تصميم خاص) لتحويل تجاربه السابقة إلى سياقات تُستخدم في الخطوات المستقبلية. يتكون عملية التعلم من مرحلتين: في المرحلة الأولى، يستخدم الوكيل التعلم بالمحاكاة من أمثلة (Imitation Learning from Demonstration) لإتمام مهام "BabySteps". وفي المرحلة الثانية، يستخدم الوكيل التعلم القائم على المناهج (Curriculum-based Reinforcement Learning) لتعظيم المكافآت في مهام الملاحة التي تتضمن تعليمات أطول تدريجيًا. وقد قمنا بإنشاء مجموعتي بيانات جديدتين (لمهام الملاحة الطويلة)، واستخدمناها مع البيانات الموجودة سابقًا لاختبار قدرة "BabyWalk" على التعميم. أظهرت النتائج التجريبية أن "BabyWalk" يحقق أداءً متميزًا على عدة مقاييس، وبخاصة في القدرة على اتباع التعليمات الطويلة. تم إتاحة الشفرة المصدرية وبيانات المجموعة على صفحة المشروع لدينا عبر الرابط: https://github.com/Sha-Lab/babywalk.