HyperAI

LoHoVLA: نموذج موحد للرؤية واللغة والفعل لمهام طويلة الأفق

Yang, Yi ; Sun, Jiaxuan ; Kou, Siqi ; Wang, Yihan ; Deng, Zhijie
تاريخ النشر: 6/4/2025
LoHoVLA: نموذج موحد للرؤية واللغة والفعل لمهام طويلة الأفق
الملخص

الوكلاء الماديون في العالم الحقيقي يواجهون مهامًا طويلة الأفق، والتي تتميز بأهداف عليا تتطلب حلولًا متعددة الخطوات تتجاوز الإجراءات الفردية. نجاح التنقل في هذه المهام يتطلب التخطيط على المستوى العالي (أي، تفكيك الأهداف إلى مهام فرعية) والتحكم الحركي على المستوى المنخفض (أي، إنتاج حركات دقيقة للروبوت). رغم أن النماذج الحالية للرؤية واللغة والعمل (VLA) والهياكل الهرمية تقدم إمكانات في المهام المادية، فإن الأولى غالبًا ما تعثر في التخطيط، بينما يمكن أن تعاني الثانية من مشكلات التنسيق، مما يؤدي إلى تراجع الأداء. نقدم إطار عمل جديد موحد للنماذج الحالية للرؤية واللغة والعمل (VLA) للمهام طويلة الأفق، والذي أطلقنا عليه اسم LoHoVLA، لتجاوز هذه القيود. يستفيد LoHoVLA من نموذج رؤية ولغة كبير تم تدريبه مسبقًا (VLM) كأساس لإنشاء رموز اللغة والأفعال بشكل مشترك لإنتاج المهام الفرعية وتوقع حركات الروبوت على التوالي. يعزز هذا التمثيل المشترك التعميم الأفضل عبر المهام. بالإضافة إلى ذلك، يحتضن LoHoVLA آلية تحكم دوري هرمي لتخفيف الأخطاء الناشئة عن التخطيط على المستوى العالي والتحكم على المستوى المنخفض. لتدريب LoHoVLA، نقدم مجموعة بيانات LoHoSet التي تم بناؤها على المحاكي Ravens وتحتوي على 20 مهمة طويلة الأفق، كل منها مع 1,000 عرض خبير يتكون من ملاحظات بصرية وأهداف لغوية ومهام فرعية وأفعال الروبوت. تظهر النتائج التجريبية أن LoHoVLA يتفوق بشكل كبير على كلا النهجين الهرمي والمعياري للنماذج الحالية للرؤية واللغة والعمل (VLA) في المهام المادية طويلة الأفق في محاكي Ravens. هذه النتائج تؤكد الوعد الذي تحمله الهياكل الموحدة في تطوير الذكاء المادي القابل للتعميم.