تعلُّم التلاعب ثنائي اليدين الدقيق باستخدام معدات رخيصة

المهام الدقيقة في التلاعب، مثل تمرير حزام سلك أو إدخال بطارية في مكانها، تُعدّ صعبة جدًا على الروبوتات لأنها تتطلب دقة عالية، وتنسيقًا دقيقًا للقوى الميكانيكية، بالإضافة إلى تغذية راجعة بصرية مغلقة الدائرة. وغالبًا ما تتطلب إنجاز هذه المهام روبوتات متقدمة، ومستشعرات دقيقة، أو معايرة دقيقة، وهي كلها أمور باهظة التكلفة وصعبة التنفيذ. هل يمكن للتعلم أن يمكّن الأجهزة الرخيصة وغير الدقيقة من أداء هذه المهام الدقيقة؟ نقدم نظامًا منخفض التكلفة يقوم بتعلم التمثيل النمطي (imitation learning) من البداية إلى النهاية مباشرة من خلال عروض حقيقية تم جمعها باستخدام واجهة تلّيوبيراتية مخصصة. ومع ذلك، فإن التعلم التمثيلي يواجه تحديات خاصة في المجالات ذات الدقة العالية: إذ يمكن أن تتراكم الأخطاء في السياسة (policy) بمرور الوقت، كما أن العروض البشرية قد تكون غير ثابتة (non-stationary). لمعالجة هذه التحديات، طوّرنا خوارزمية بسيطة ولكنها مبتكرة تُسمى "تقسيم الإجراءات باستخدام المحولات" (Action Chunking with Transformers أو ACT)، والتي تتعلم نموذجًا توليديًا على تسلسلات الإجراءات. تُمكّن ACT الروبوت من تعلّم 6 مهام صعبة في العالم الحقيقي، مثل فتح كوب معجون شفاف وإدخال بطارية بنجاح بنسبة 80-90٪، وذلك باستخدام فقط 10 دقائق من العروض التوضيحية. موقع المشروع: https://tonyzhaozh.github.io/aloha/