ما يهم في التعلّم من التوضيحات البشرية المُخزّنة لمهام التلاعب بالروبوت

محاكاة التمثيل البشري تُعد منهجية واعدة لتزويد الروبوتات بقدرات متعددة على التلاعب. وعلى الرغم من التقدم الأخير في مجال التعلم بالمحاكاة والتعلم القوي (التحفيزي) بالدُفعات (غير المباشر)، إلا أن غياب مجموعات بيانات بشرية مفتوحة المصدر وصعوبة إعادة إنتاج طرق التعلم تجعل تقييم الحالة الحالية للحقل أمرًا صعبًا. في هذا البحث، نُجري دراسة شاملة لستة خوارزميات تعلم غير مباشرة لمهام التلاعب بالروبوتات على خمسة مهام محاكاة وثلاثة مهام واقعية متعددة المراحل، تتراوح في تعقيدها وتشمل مجموعات بيانات ذات جودة مختلفة. تحلل دراستنا التحديات الأكثر أهمية عند التعلم من بيانات بشرية غير مباشرة في سياق التلاعب. بناءً على هذه الدراسة، نستخلص سلسلة من الدروس، تشمل الحساسية تجاه اختيارات التصميم الخوارزمي المختلفة، والاعتماد على جودة التمثيلات البشرية، والتباين الناتج عن معايير التوقف بسبب الاختلاف في الأهداف أثناء التدريب والتقييم. كما نسلط الضوء على فرص التعلم من مجموعات بيانات بشرية، مثل القدرة على تعلّم سياسات ماهرة في المهام الصعبة والمتعددة المراحل التي تتجاوز نطاق الطرق الحالية للتعلم القوي، والقدرة على التوسع بسهولة في سيناريوهات التلاعب الواقعية الطبيعية التي تتوفر فيها فقط إشارات حسية خام. وقد أطلقنا مجموعات البيانات والتنفيذ الكامل لكل الخوارزميات مفتوحة المصدر لتمكين الأبحاث المستقبلية وتمكين المقارنات العادلة في التعلم من بيانات التمثيل البشري. يمكن الوصول إلى الكود، والبيانات، والنموذج المدرب، والمزيد من خلال: https://arise-initiative.github.io/robomimic-web/