HyperAIHyperAI
منذ 11 أيام

Perceiver-Actor: محول متعدد المهام للتحكم الروبوتي

Mohit Shridhar, Lucas Manuelli, Dieter Fox
Perceiver-Actor: محول متعدد المهام للتحكم الروبوتي
الملخص

أحدثت نماذج التحويل (Transformers) ثورة في مجالات المعالجة البصرية ومعالجة اللغة الطبيعية بفضل قدرتها على التوسع مع كميات كبيرة من البيانات. لكن في مجال التلاعب بالروبوتات، تكون البيانات محدودة ومرتفعة التكلفة. هل يمكن أن يستفيد التلاعب من نماذج التحويل مع الصياغة الصحيحة للمشكلة؟ نستكشف هذا السؤال من خلال نموذج "PerAct"، وهو وكيل يعتمد على اللغة ويستخدم تقنية التعلّم بالنمذجة السلوكية (behavior cloning) للتعامل مع مهام متعددة في التلاعب بست درجات من الحرية (6-DoF). يُشفّر نموذج PerAct الأهداف اللغوية والمشاهدات ثلاثية الأبعاد المكونة من صور RGB-D باستخدام نموذج التحويل المُصمم خصيصًا (Perceiver Transformer)، ثم يُخرِج إجراءات منفصلة من خلال "اكتشاف أفضل مكاني إجراءٍ قادم". على عكس الأطر التي تعمل على الصور ثنائية الأبعاد، فإن استخدام الفضاءات ثلاثية الأبعاد المُجزّأة (الفوكسلات) للإدخال والإخراج يوفر سياقًا هيكلية قوية تُمكّن من تعلّم الإجراءات بست درجات من الحرية بكفاءة عالية. وباستخدام هذه الصياغة، ندرّب نموذجًا واحدًا مُتعدد المهام من نوع التحويل (Transformer) على 18 مهمة من مهام RLBench (بما يعادل 249 تباينًا) و7 مهام حقيقية (بما يعادل 18 تباينًا)، وذلك من خلال عدد قليل جدًا من الأمثلة لكل مهمة. تُظهر النتائج أن PerAct يتفوق بشكل ملحوظ على النماذج التي تعتمد على صور غير منظمة لتحويل الإدخال إلى إجراء، وكذلك على نماذج 3D ConvNet في مجموعة واسعة من المهام على الطاولة.

Perceiver-Actor: محول متعدد المهام للتحكم الروبوتي | أحدث الأوراق البحثية | HyperAI