HyperAIHyperAI
منذ 2 أشهر

تعزيز التوافق بين الأوضاع المتعددة والتعلم الذاتي بالتقليد للتنقل البصري-اللغوي

Xin Wang; Qiuyuan Huang; Asli Celikyilmaz; Jianfeng Gao; Dinghan Shen; Yuan-Fang Wang; William Yang Wang; Lei Zhang
تعزيز التوافق بين الأوضاع المتعددة والتعلم الذاتي بالتقليد للتنقل البصري-اللغوي
الملخص

الملاحة اللغوية البصرية (VLN) هي مهمة توجيه وكيل مادي لتنفيذ تعليمات اللغة الطبيعية داخل بيئات ثلاثية الأبعاد حقيقية. في هذا البحث، ندرس كيفية التعامل مع ثلاثة تحديات حرجة لهذه المهمة: الترابط العابر للوسائط، التغذية الراجعة غير السليمة، ومشكلة التعميم. أولاً، نقترح منهجًا جديدًا للمطابقة المعززة العابرة للوسائط (RCM) يفرض الترابط العابر للوسائط محليًا وعالميًا عبر التعلم المعزز (RL). بشكل خاص، يتم استخدام ناقد المطابقة لتوفير مكافأة جوهرية تشجع على المطابقة العالمية بين التعليمات والمسارات، ويتم توظيف ملاحة المنطق لتنفيذ الترابط العابر للوسائط في المشهد البصري المحلي. تقييم النموذج RCM على مجموعة بيانات مرجعية للملاحة اللغوية البصرية يظهر أن نموذجنا RCM يتفوق بشكل كبير على الأساليب السابقة بنسبة 10% في SPL ويحقق أداءً رائدًا جديدًا. لتحسين قابلية تعميم السياسة المُتعلَّمة، نقدم أيضًا طريقة التعلم التقليدي الذاتي (SIL) لاكتشاف بيئات غير مشاهدة من خلال تقليد قراراتها الجيدة السابقة. نثبت أن SIL يمكن أن تقرب سياسة أفضل وأكثر كفاءة، مما يقلل بشكل كبير الفجوة في معدل النجاح بين البيئات المشاهدة وغير المشاهدة (من 30.7% إلى 11.7%).