DecisionNCE: تمثيلات متعددة الوسائط المُدرَكة من خلال التعلّم الضمني للترغيب

التدريب المُتعدد الوسائط هو استراتيجية فعّالة لتحقيق الثلاثية من الأهداف في تعلم التمثيل للروبوتات المستقلة: 1) استخلاص التسلسلات المحلية والعالمية للتقدم في المهمة؛ 2) ضمان الاتساق الزمني للتمثيل البصري؛ 3) التقاط التمثيل اللغوي على مستوى المسار. تسعى معظم الطرق الحالية لتحقيق هذه الأهداف عبر أهداف منفصلة، مما يؤدي غالبًا إلى حلول غير مثلى. في هذه الورقة، نقترح هدفًا موحدًا شاملاً يمكنه في آنٍ واحد استخلاص معلومات ذات معنى عن تسلسل المهام من تسلسلات الصور، وربطها بشكل سلس مع التعليمات اللغوية. ونكتشف أن التفضيلات الضمنية، حيث يتطابق مسار بصري بشكل طبيعي مع التعليمات اللغوية المقابلة له بشكل أفضل من الأزواج غير المتطابقة، تتيح تحويل نموذج برادلي-تيري إلى تعلم التمثيل من خلال إعادة تعيين مكافآت مناسبة. يُمثّل الإطار الناتج، DecisionNCE، هدفًا يشبه InfoNCE، لكنه مصمم بشكل خاص لمهام اتخاذ القرار، ويقدّم إطارًا لتعلم التمثيل المُدمج الذي يستخرج بذكاء خصائص التقدم المحلي والعالمي في المهمة، مع ضمان الاتساق الزمني من خلال تعلم المقارنة الزمنية الضمنية، بينما يضمن التمثيل اللغوي على مستوى المسار من خلال التشفير المشترك متعدد الوسائط. تُظهر النتائج المقدمة على روبوتات مُحاكاة وواقعية أن DecisionNCE يُسهم بشكل فعّال في تنفيذ مهام التعلم المختلفة للسياسات التالية، مقدّمًا حلًّا مرنًا لتعلم التمثيل الموحّد والمكافأة. صفحة المشروع: https://2toinf.github.io/DecisionNCE/