RT-1: نموذج التحويل الروبوتي للتحكم في العالم الحقيقي على نطاق واسع

من خلال نقل المعرفة من مجموعات بيانات كبيرة ومتنوعة وغير موجهة لمهام محددة، يمكن للنماذج الحديثة في التعلم الآلي إنجاز مهام متخصصة في الاتجاه السفلي إما بشكل صفرية (zero-shot) أو باستخدام مجموعات بيانات صغيرة مخصصة لهذه المهمة، وبأداء عالي جدًا. وعلى الرغم من أن هذه القدرة قد أُثبتت في مجالات أخرى مثل الرؤية الحاسوبية، ومعالجة اللغة الطبيعية، أو التعرف على الصوت، إلا أنها ما زالت بحاجة إلى إثبات في مجال الروبوتات، حيث تُعد قدرة النماذج على التعميم أمرًا بالغ الأهمية نظرًا لصعوبة جمع بيانات واقعية من الروبوتات في البيئات الحقيقية. نحن نرى أن أحد العوامل الحاسمة في نجاح هذه النماذج الروبوتية العامة يكمن في التدريب المفتوح الطرف (open-ended task-agnostic)، مدعومًا ببنية عالية القدرة يمكنها استيعاب جميع البيانات الروبوتية المتنوعة. في هذه الورقة، نقدم فئة نماذج تُسمى "روبوت ترانس فورمر" (Robotics Transformer)، والتي تُظهر خصائص نمو ممتازة وقابلة للتوسع. ونُحقق استنتاجاتنا من خلال دراسة لفئات نماذج مختلفة وقُدرتها على التعميم كدالة لحجم البيانات، وحجم النموذج، وتنوع البيانات، بناءً على مجموعة بيانات ضخمة تم جمعها من روبوتات حقيقية تقوم بمهام واقعية. يمكن العثور على موقع المشروع ومقاطع الفيديو عبر الرابط: robotics-transformer1.github.io