نموذج "السلوك الكبير" من شركة تويوتا يحقق اختراقًا في تعلم الروبوتات: تقليل البيانات بنسبة 80% وإتقان مئات المهام في نموذج واحد
أصدرت مؤسسة تويوتا للبحث (TRI) مؤخرًا دراسة مبتكرة حول ما يُعرف بـ "نماذج السلوك الكبيرة" (LBMs)، والتي قد تحدث ثورة في طريقة تدريب الروبوتات. وتشير الدراسة إلى أن هذه النماذج قادرة على تقليل احتياجات البيانات بشكل كبير، حيث يمكن للروبوتات تعلم مهام جديدة باستخدام 80% أقل من البيانات المطلوبة في الطرق التقليدية، كما أن نموذجًا واحدًا يمكنه التحكم في مئات المهام المختلفة. وقد نُشرت الورقة البحثية بعنوان "التحقق الدقيق من نماذج السلوك الكبيرة من أجل العمليات الدقيقة متعددة المهام" (A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation) على منصة arXiv. يُعتبر النهج التقليدي لتدريب الروبوتات محدودًا للغاية، إذ يتطلب لكل مهمة تطوير خوارزمية مخصصة، مما يؤدي إلى تعلم بطيء وغير مستقر، ويقتصر على مهام محددة في بيئات محدودة. في المقابل، تعتمد نماذج السلوك الكبيرة على نموذج مشابه لنموذج اللغة الكبير (LLMs)، لكن تم تكييفه ليناسب العمليات الفيزيائية للروبوتات. وتتكون البنية المُستخدمة في الدراسة من شبكة عصبية معقدة تعتمد على نموذج التشتت (diffusion model) ونموذج الترانسفورمر (Transformer)، وتعمل على دمج معلومات مرئية من عدة كاميرات (تشمل كاميرات في مفاصل الروبوت وبيئته)، بالإضافة إلى بيانات حسية داخلية مثل وضعية الروبوت وحركته، وتعليمات منطقية مكتوبة من البشر. يتم تدريب هذه النماذج على توليد سلسلة من الحركات الدقيقة والمنسقة، حيث يمكنها التنبؤ بـ 16 خطوة في المستقبل (ما يعادل 1.6 ثانية) في وقت واحد، مما يسمح لها بتنفيذ المهام بشكل أملس ومتوقع. وقد تم تدريب نماذج LBMs على بيانات وصلت إلى حوالي 1700 ساعة، تضمنت بيانات مراقبة من روبوتات ذات ذراعين، وبيانات محاكاة، وبيانات من منصة UMI، بالإضافة إلى بيانات مختارة من مجموعة Open X-Embodiment. في تقييم الأداء، أجريت أكثر من 1800 تجربة في البيئة الواقعية، و47000 تجربة في المحاكاة، تغطي 29 مهمة مختلفة. وقد تم استخدام منهجية تجربة A/B مع تحفظات صارمة لضمان دقة النتائج. كما تم تطوير إطار تقييم إحصائي جديد لضمان موثوقية النتائج عبر المهام المختلفة. النماذج المستخدمة تعتمد على منصة ميكانيكية تُعرف بـ Franka Panda FR3، وتتميز بوجود حتى ستة كاميرات، اثنتين في كل مفصل، واثنين في البيئة. كما أن النموذج يستخدم نموذج CLIP لتحليل الصور ولغة المهام، ويجمع بين هذه المعلومات وبيانات الحس الجسدي ورموز الوقت الخاصة بالتشتت لتشكيل ميزات الملاحظة. في جزء من الإنتاج، تستخدم نماذج LBMs نموذجًا يُسمى DDIM (Denoising Diffusion Implicit Models) لخلق سلسلة من الحركات بدقة. وتبدأ العملية من عينة عشوائية من الضوضاء، وتُنتج خطوات حركية متكررة تصبح أكثر دقة مع كل تكرار. الدراسة خرجت بثلاثة نتائج رئيسية: أولًا، تفوق نماذج LBMs المُعدّلة على النماذج التقليدية في المهام التي شوهدت سابقًا. ثانيًا، أظهرت النماذج قدرة أكبر على التكيف مع التغيرات البيئية، حتى في الظروف غير المتوقعة. ثالثًا، أظهرت قدرة استثنائية على تقليل كمية البيانات المطلوبة لتدريب الروبوتات، حيث يمكن لنموذج مُعدّل أن يحقق أداءً مشابهًا لنموذج من الصفر باستخدام 15% فقط من البيانات في المهام الواقعية. كما تم التحقق من "قانون التوسع" (Scaling Law) في هذه النماذج، حيث وجد الباحثون أن الأداء يتحسن بشكل مستمر مع زيادة كمية البيانات المُدرب عليها. ولم يُلاحظ أي انقطاع أو تغير مفاجئ في الأداء حتى عند استخدام كميات كبيرة من البيانات. كما تم اختبار هذه النماذج على مهام معقدة طويلة الأمد، مثل قطع الفواكه، حيث أظهرت الأداء الأفضل مقارنة بالطرق التقليدية. أحد الإسهامات المهمة في هذه الدراسة هو التركيز على أهمية المعايير الإحصائية الصارمة في تقييم أداء الروبوتات، حيث أشار الباحثون إلى أن العديد من الدراسات السابقة قد تضللها الضوضاء الإحصائية بدلاً من القياسات الدقيقة. الدراسة تؤكد أن تدريب النماذج على بيانات واسعة النطاق يمكن أن يحقق تحسينات مستمرة في الأداء، مما يفتح المجال لتطوير أنظمة روبوتية أكثر ذكاءً وتكيفًا مع المهام المختلفة. ومع ذلك، تشير النتائج أيضًا إلى بعض التحديات، مثل ضعف الأداء في النماذج غير المعدّلة، والتي تعاني من قيود في فهم التعليمات اللغوية. كما أظهرت أن الاختيارات التصميمية مثل توحيد البيانات تؤثر بشكل كبير على الأداء، مما يُعد تحذيرًا لباحثي الروبوتات لعزل هذه العوامل عند مقارنة الطرق المختلفة.