التعلم متعدد المهام المستقل عن البيئة للتنقل المبني على اللغة الطبيعية

تسهم الجهود البحثية الحديثة في تمكين دراسة التوجيه باللغة الطبيعية في بيئات واقعية بصريًا، مثل اتباع التعليمات باللغة الطبيعية أو التفاعل عبر المحادثة. ومع ذلك، تميل الطرق الحالية إلى التأقلم المفرط مع بيانات التدريب في البيئات المرئية، وتفشل في التعميم الجيد في البيئات غير المرئية سابقًا. وللتقليل من الفجوة بين البيئات المرئية وغير المرئية، نهدف إلى تعلم نموذج توجيه عام من منظورين جديدين: (1) نُقدّم نموذج توجيه متعدد المهام يمكن تدريبه بشكل سلس على مهام التوجيه البصري-اللغوي (VLN) ومهام التوجيه من تاريخ المحادثة (NDH)، مما يُتيح استفادة أكبر من التوجيه باللغة الطبيعية الغنية ويساهم في نقل المعرفة بفعالية بين المهام؛ (2) نقترح تعلُّم تمثيلات غير مرتبطة بالبيئة للسياسة التوجيهية، تكون ثابتة بين البيئات التي تم رؤيتها أثناء التدريب، مما يُعزز التعميم في البيئات غير المرئية. تُظهر التجارب الواسعة أن التعلم المتعدد المهام غير المرتبط بالبيئة يقلل بشكل كبير من الفجوة في الأداء بين البيئات المرئية وغير المرئية، ويتفوق العامل التوجيهي المدرب بهذه الطريقة على النماذج الأساسية في البيئات غير المرئية بنسبة 16٪ (قياس نسبي لمعدل النجاح) في مهام VLN، وبنسبة 120٪ (في تقدم الوصول إلى الهدف) في مهام NDH. كما أرسَلنا مشاركتنا إلى قائمة التصنيف CVDN، حيث أقامت نموذجًا جديدًا للحالة الراهنة (state-of-the-art) في مهمة NDH على مجموعة الاختبار المحفوظة. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/google-research/valan.