مسار جديد: توسيع التوجيه البصري واللغوي باستخدام التعليم التمثيلي وتعلم المحاكاة

أظهرت الدراسات الحديثة في مجال التنقل البصري واللغوي (VLN) تدريب وكلاء التعلم بالتعزيز (RL) على تنفيذ تعليمات التنقل باللغة الطبيعية في بيئات واقعية بصريًا، كخطوة نحو تطوير روبوتات قادرة على اتباع التعليمات البشرية. ومع ذلك، وبسبب ندرة بيانات التعليمات البشرية وتنوع محدود في البيئات التدريبية، لا يزال هؤلاء الوكلاء يواجهون صعوبات كبيرة في التماسك اللغوي المعقد والفهم الفراغي للغة. وقد تم استكشاف التدريب المسبق على مجموعات بيانات كبيرة من النصوص والنصوص-الصور المستمدة من الإنترنت بشكل واسع، لكن التحسينات الناتجة كانت محدودة. نحن نستكشف توسيعًا على نطاق واسع باستخدام تعليمات مُصَنَّعة. نأخذ أكثر من 500 بيئة داخلية تم التقاطها باستخدام لقطات بانورامية بزاوية 360 درجة بشكل كثيف، ونُنشئ مسارات للتنقل عبر هذه اللقطات، ثم نُولِّد تعليمات مبنية على الرؤية لكل مسار باستخدام "ماركي" (Marky)، وهي أداة مُولِّدة عالية الجودة للتعليمات متعددة اللغات الخاصة بالتنقل. كما نُولِّد مشاهد صور من وجهات نظر جديدة باستخدام شبكة توليدية للصور (image-to-image GAN). يُنتج بذلك مجموعة بيانات مكونة من 4.2 مليون زوج من التعليمات والمسارات، وهي أكبر بمرتين من مجموعات البيانات البشرية المُعلَّمة الحالية، وتشمل تنوعًا أوسع في البيئات والزوايا المرئية. ولتمكين الاستفادة الفعّالة من هذه الكمية الهائلة من البيانات، نُدرّب وكيلًا بسيطًا يعتمد على نموذج الترانسفورمر باستخدام التعلم بالإماثة (imitation learning). على مجموعة بيانات RxR الصعبة، يتفوّق نهجنا على جميع الوكلاء القائمين على التعلم بالتعزيز الحالية، حيث يُحسّن أداء التماسك اللغوي (NDTW) من 71.1 إلى 79.1 في البيئات المرئية المعروفة، ومن 64.6 إلى 66.8 في البيئات غير المعروفة أثناء الاختبار. تُشير أعمالنا إلى طريق جديد لتحسين وكالات اتباع التعليمات، مع التركيز على التعلم بالإماثة على نطاق واسع وتطوير القدرات في إنشاء التعليمات الاصطناعية.