HyperAIHyperAI

Command Palette

Search for a command to run...

Perceiver-Actor: محول متعدد المهام للتحكم الروبوتي

Mohit Shridhar Lucas Manuelli Dieter Fox

الملخص

أحدثت نماذج التحويل (Transformers) ثورة في مجالات المعالجة البصرية ومعالجة اللغة الطبيعية بفضل قدرتها على التوسع مع كميات كبيرة من البيانات. لكن في مجال التلاعب بالروبوتات، تكون البيانات محدودة ومرتفعة التكلفة. هل يمكن أن يستفيد التلاعب من نماذج التحويل مع الصياغة الصحيحة للمشكلة؟ نستكشف هذا السؤال من خلال نموذج "PerAct"، وهو وكيل يعتمد على اللغة ويستخدم تقنية التعلّم بالنمذجة السلوكية (behavior cloning) للتعامل مع مهام متعددة في التلاعب بست درجات من الحرية (6-DoF). يُشفّر نموذج PerAct الأهداف اللغوية والمشاهدات ثلاثية الأبعاد المكونة من صور RGB-D باستخدام نموذج التحويل المُصمم خصيصًا (Perceiver Transformer)، ثم يُخرِج إجراءات منفصلة من خلال "اكتشاف أفضل مكاني إجراءٍ قادم". على عكس الأطر التي تعمل على الصور ثنائية الأبعاد، فإن استخدام الفضاءات ثلاثية الأبعاد المُجزّأة (الفوكسلات) للإدخال والإخراج يوفر سياقًا هيكلية قوية تُمكّن من تعلّم الإجراءات بست درجات من الحرية بكفاءة عالية. وباستخدام هذه الصياغة، ندرّب نموذجًا واحدًا مُتعدد المهام من نوع التحويل (Transformer) على 18 مهمة من مهام RLBench (بما يعادل 249 تباينًا) و7 مهام حقيقية (بما يعادل 18 تباينًا)، وذلك من خلال عدد قليل جدًا من الأمثلة لكل مهمة. تُظهر النتائج أن PerAct يتفوق بشكل ملحوظ على النماذج التي تعتمد على صور غير منظمة لتحويل الإدخال إلى إجراء، وكذلك على نماذج 3D ConvNet في مجموعة واسعة من المهام على الطاولة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Perceiver-Actor: محول متعدد المهام للتحكم الروبوتي | مستندات | HyperAI