وكيل الملاحة الذاتية عبر تقدير التقدم المساعد

مهمة التوجيه البصري واللغوي (VLN) تتضمن قيام وكيل باتباع تعليمات التنقل في بيئات غير معروفة وشبه حقيقية. هذه المهمة الصعبة تتطلب أن يكون الوكيل على دراية بما تم إنجازه من تعليمات، وما هي التعليمات المطلوبة للخطوة التالية، وأي الاتجاهات يجب اتباعها، وتقدمه نحو الهدف. في هذا البحث، نقدم وكيلًا ذاتي الرصد يحتوي على مكونين متكاملين: (1) وحدة التأطير البصري-النصي المشتركة لتحديد التعليمات التي تم إنجازها سابقًا، والتعليمات المطلوبة للإجراء التالي، والاتجاه القادم للحركة من الصور المحيطة (2) مراقب التقدم لضمان أن تعليمات التأطير تعكس بشكل صحيح تقدم التنقل. نختبر وكيلنا الذاتي الرصد على مقاييس معيارية قياسية ونحلل نهجنا المقترح من خلال سلسلة من دراسات الاستبعاد التي توضح مساهمات المكونات الرئيسية. باستخدام طريقة المقترحة لدينا، حققنا الحالة الجديدة الأكثر تقدمًا بمقدار كبير (زيادة بنسبة 8% في معدل النجاح على مجموعة الاختبار غير المعروفة). الكود متاح على الرابط https://github.com/chihyaoma/selfmonitoring-agent .