تعلم التوقف: نهج بسيط ولكن فعّال للتنقل البصري-اللغوي الحضري

تُعدّ الملاحة المرئية واللغوية (VLN) مهمةً في ترسيخ اللغة الطبيعية، حيث يتعلم الوكيل اتباع التعليمات اللغوية والتنقل إلى وجهات محددة في البيئات الواقعية. ويُعدّ التحدي الرئيسي هو التعرف على الموقع الصحيح والتوقف عند هذا المكان، خاصة في البيئات الخارجية المعقدة. تتعامل الطرق الحالية مع إجراء التوقف (STOP) بنفس القدر من الأهمية كما تتعامل مع الإجراءات الأخرى، مما يؤدي إلى سلوكيات غير مرغوب فيها، حيث يفشل الوكيل غالبًا في التوقف عند الوجهة، حتى لو كان على المسار الصحيح. ولذلك، نقترح نموذجًا بسيطًا وفعالًا يُسمى "التعلم للتوقف" (L2Stop)، والذي يميز بين إجراء التوقف والإجراءات الأخرى. ويحقق نهجنا أحدث النتائج المحققة على مجموعة بيانات VLN الحضرية الصعبة "Touchdown"، متفوقًا على النموذج الأساسي بنسبة 6.89% (تحسين مطلق) في مؤشر النجاح الموزون بالمسافة التصحيحية (SED).