Command Palette
Search for a command to run...
EnvEdit: تحرير البيئة للتنقل البصري-اللغوي
EnvEdit: تحرير البيئة للتنقل البصري-اللغوي
Jialu Li Hao Tan Mohit Bansal
الملخص
في الملاحة المرئية واللغوية (VLN)، يحتاج الوكيل إلى التنقل داخل البيئة استنادًا إلى تعليمات لغوية طبيعية. وبسبب النقص في البيانات المتاحة لتدريب الوكيل، بالإضافة إلى التنوع المحدود في بيئات التنقل، يصبح من الصعب على الوكيل التعميم إلى بيئات جديدة غير مرئية. لمعالجة هذه المشكلة، نقترح منهجية تُسمى EnvEdit، وهي طريقة لتعزيز البيانات تُنشئ بيئات جديدة من خلال تعديل البيئات الحالية، والتي تُستخدم لتدريب وكيل أكثر قدرة على التعميم. يمكن أن تختلف البيئات المُعززة لدينا عن البيئات التي شُهِدت في ثلاثة جوانب متنوعة: الأسلوب، ومظهر الكائنات، وفئات الكائنات. يُعد التدريب على هذه البيئات المُعدّلة يُسهم في منع الوكيل من التكيف المفرط مع البيئات الحالية، ويساعد في التعميم بشكل أفضل إلى بيئات جديدة وغير مُشاهدَة. من الناحية التجريبية، نُظهر على كلا مجموعة بيانات Room-to-Room وRoom-Across-Room متعددة اللغات أن منهجية EnvEdit المقترحة تحقق تحسنًا كبيرًا في جميع المقاييس على كل من وكالات VLN المُدرَّبة مسبقًا وغير المُدرَّبة مسبقًا، وتُحقِّق أداءً جديدًا على مستوى الحالة الراهنة (state-of-the-art) في قائمة التصنيف النهائية. كما نُظهر أن تجميع الوكالات المُدرَّبة على بيئات مُعدَّلة مختلفة يُسهم في تحسين الأداء، مما يدل على أن هذه الأساليب المُعدَّلة مكملة لبعضها البعض. تم إتاحة الكود والبيانات عبر الرابط التالي: https://github.com/jialuli-luka/EnvEdit