إلى تعلُّم وكيل عام لمهام التوجيه البصري-اللغوي من خلال التدريب المسبق

التعلم لاستكشاف بيئة مرئية وفقًا لتوجيهات بلغة طبيعية يُعد مهمة صعبة، نظرًا لتنوع المدخلات متعددة الوسائط التي يتلقاها الوكيل، وندرة بيانات التدريب في المهام الجديدة غالبًا. في هذه الورقة، نقدّم أول نموذج لتدريب مسبق وضبط دقيق (pre-training and fine-tuning) للمهام المتعلقة بالتنقل البصري واللغوي (VLN). من خلال التدريب على كمية كبيرة من ثلاثيات الصورة-النص-الإجراء بطريقة تعلّم ذاتي (self-supervised)، يُقدّم النموذج المُدرّب مسبقًا تمثيلات عامة للبيئات البصرية والتوجيهات اللغوية. ويمكن استخدامه بسهولة كمكوّن جاهز (drop-in) في الإطارات الحالية لمهام VLN، ما يؤدي إلى تطوير الوكيل المُقترح المُسمّى Prevalent. ويُظهر هذا الوكيل كفاءة أعلى في التعلّم ضمن مهام جديدة، وتميّزًا أفضل في التعميم داخل بيئات لم يُرَتَّب لها من قبل. وقد تم التحقق من الأداء على ثلاث مهام لـ VLN. وفي معيار Room-to-Room، تُحسّن النموذج المُقدّم من 47% إلى 51% في معدل النجاح المُوزون حسب طول المسار. علاوةً على ذلك، تُبيّن التمثيلات المُكتسبة قابليتها للنقل إلى مهام VLN الأخرى. وفي مهامين حديثين، وهما التنقل البصري والمحادثة (vision-and-dialog navigation) و"ساعدني يا آنا!" (Help, Anna!)، يُحقّق Prevalent تحسينًا كبيرًا مقارنة بالطرق الحالية، ويُسجّل حالة جديدة من الأداء القياسي (state-of-the-art).