HOP: التدريب المسبق المُدرك للتاريخ والنظام للتنقل البصري-اللغوي

تم اعتماد التدريب المسبق في عدد قليل من الدراسات الحديثة المتعلقة بالتنقل البصري-اللغوي (VLN). ومع ذلك، فإن الطرق السابقة للتدريب المسبق في VLN إما تفتقر إلى القدرة على توقع الإجراءات المستقبلية أو تتجاهل سياقات المسار، وهي عناصر ضرورية لعملية تنقل تُطبَّق بطريقة جشعة. في هذا العمل، ولتعزيز تعلم التوافق المكاني-الزمني بين الرؤية والنص، فضلاً عن تعزيز قدرة الوكيل على اتخاذ القرار، نقترح نموذجًا جديدًا للتدريب المسبق يراعي التاريخ والترتيب (HOP) مع أهداف مخصصة لـ VLN، تُستخدَم فيها الملاحظات السابقة وتدعم توقع الإجراءات المستقبلية. وبشكل خاص، وبالإضافة إلى المهام الشائعة مثل نمذجة اللغة المُقنَّعة (MLM) وتوافق المسار والتعليمات (TIM)، قمنا بتصميم مهمتين بديلتين لنمذجة المعلومات الزمنية: نمذجة ترتيب المسار (TOM) ونمذجة ترتيب المجموعات (GOM). علاوة على ذلك، تم تعزيز توقع إجراءات التنقل من خلال إدخال مهمة توقع الإجراء مع التاريخ (APH)، التي تأخذ بعين الاعتبار التصورات البصرية السابقة. أظهرت النتائج التجريبية الواسعة على أربع مهام تطبيقية لـ VLN (R2R، REVERIE، NDH، RxR) فعالية المنهج المقترح مقارنةً بعدة وكالات من الطراز الرائد.