إطلاق التدريب المسبق التوليدي للفيديوهات على نطاق واسع لمهام التلاعب البصري للروبوتات

أظهرت النماذج المُدرَّبة مسبقًا وذات التوليد فعاليةً لافتة في مجالات اللغة والرؤية من خلال تعلُّم تمثيلات مفيدة. في هذه الورقة، نوسع نطاق هذه الفعالية من خلال إظهار أن التلاعب بالروبوتات البصرية يمكن أن يستفيد بشكل كبير من التدريب المسبق على نطاق واسع على مقاطع الفيديو التوليدية. نقدّم GR-1، نموذجًا بسيطًا على غرار GPT مصمم للتحكم البصري متعدد المهام بشروط لغوية. يأخذ GR-1 كمدخلات تعليمات لغوية، وسلسلة من صور الملاحظة، وسلسلة من حالات الروبوت. ويتوقع بشكل متكامل إجراءات الروبوت والصور المستقبلية. وبفضل تصميمه المرن، يمكن تحسين GR-1 بسلاسة على بيانات الروبوت بعد تدريبه مسبقًا على مجموعة بيانات فيديو واسعة النطاق. أجرينا تجارب مكثفة على معيار CALVIN الصعب وعلى روبوت حقيقي. على معيار CALVIN، تفوق طريقة我们的 على الطرق الأساسية المتطورة، وحسّنت معدل النجاح من 88.9% إلى 94.9%. وفي بيئة التعميم على مشاهد غير مرئية مسبقًا (zero-shot unseen scene generalization)، رفعت GR-1 معدل النجاح من 53.3% إلى 85.4%. وفي التجارب على الروبوت الحقيقي، تفوقت أيضًا GR-1 على الطرق الأساسية، وأظهرت إمكانات قوية في التعميم على مشاهد وأجسام غير مألوفة. نقدم أول دليل على أن نموذج موحد من نوع GPT يعتمد على محول (transformer) ويُعزّز بتدريب مسبق واسع النطاق على مقاطع فيديو توليدية، يُظهر تعميمًا ملحوظًا في التحكم البصري متعدد المهام بالروبوتات. صفحة المشروع: https://GR1-Manipulation.github.io