Transformer متعدد الوسائط عارف بالتاريخ للتنقل البصري واللغوي

تهدف الملاحة البصرية واللغوية (VLN) إلى بناء وكالات بصرية مستقلة قادرة على اتباع التعليمات والتنقل في المشاهد الحقيقية. ولحفظ المواقع التي تم زيارتها سابقًا والإجراءات التي تم اتخاذها، تُطبّق معظم النهج المتبعة في VLN ذاكرة باستخدام حالات متكررة. بدلًا من ذلك، نقدّم نموذجًا متعدد الوسائط مُدركًا للتاريخ (HAMT) لدمج تاريخ طويل المدى في اتخاذ القرارات متعددة الوسائط. يُشفّر HAMT بشكل فعّال جميع الملاحظات البيانية السابقة عبر نموذج تحويل البصرية الهرمي (ViT)، والذي يُشفّر أولًا الصور الفردية باستخدام ViT، ثم يُنمذج العلاقات المكانية بين الصور ضمن ملاحظة بيانية واحدة، وأخيرًا يأخذ بعين الاعتبار العلاقات الزمنية بين الصور البيانية في التاريخ. ثم، يدمج HAMT بشكل مشترك بين النص والذاكرة والملاحظة الحالية للتنبؤ بالعملية التالية. نقوم أولًا بتدريب HAMT بشكل كامل (end-to-end) باستخدام عدة مهام بديلة، منها تنبؤ العملة في خطوة واحدة وتنبؤ العلاقات المكانية، ثم نستخدم التعلم التعزيزي لتحسين سياسة التنقل بشكل إضافي. يحقّق HAMT أداءً جديدًا على مستوى الحد الأقصى في مجموعة واسعة من مهام VLN، بما في ذلك VLN مع تعليمات دقيقة (R2R، RxR)، وتعليمات عالية المستوى (R2R-Last، REVERIE)، والمحادثات (CVDN)، وكذلك VLN بفترة طويلة (R4R، R2R-Back). ونُظهر أن HAMT يكون فعّالًا بشكل خاص في مهام التنقل التي تتطلب مسارات أطول.