BEVBert: التدريب المسبق متعدد الوسائط للخرائط للتنقل الموجه باللغة

أظهرت التدريب المسبق على نطاق واسع نتائج واعدة في مهمة التوجيه البصري-اللغوي (VLN). ومع ذلك، فإن معظم الطرق الحالية للتدريب المسبق تعتمد على مناظر متقطعة لتعلم الارتباطات البصرية-اللغوية. وهذا يتطلب من النموذج أن يربط ضمنيًا بين ملاحظات غير كاملة ومتكررة داخل هذه المناظر، مما قد يضر بفهم الوكيل للمساحة. لذلك، نقترح نموذجًا جديدًا للتدريب المسبق يعتمد على الخرائط، ويتميز بالوعي المكاني، ويُستخدم في مهمة VLN. بشكل محدد، نبني خريطة مترية محلية لجمع الملاحظات غير الكاملة بشكل صريح وإزالة التكرارات، في حين نُمَثّل اعتماد التوجيه في خريطة توبولوجية عالمية. يُعد هذا التصميم الهجين متوازنًا في تلبية احتياجات VLN من التفكير قصير الأمد والتخطيط طويل الأمد. ثم، استنادًا إلى الخريطة الهجينة، نصمم إطارًا للتدريب المسبق لتعلم تمثيل متعدد الوسائط للخرائط، مما يعزز التفكير التقاطعي المُدرك للمكان، وبالتالي يُسهّل تحقيق الهدف التوجيهي الموجه باللغة. أظهرت التجارب الواسعة فعالية النهج المبني على الخرائط للتدريب المسبق في VLN، وحقق النهج المقترح أداءً متفوقًا على أربع معايير لـ VLN.