السياسات القائمة على التعليمات والوعي بالتاريخ لعمليات التحكم الروبوتيكي

في البيئات البشرية، من المتوقع أن تقوم الروبوتات بتنفيذ مجموعة متنوعة من مهام التلاعب بناءً على تعليمات لغوية طبيعية بسيطة. ومع ذلك، فإن تلاعب الروبوتات يعد تحديًا شديد الصعوبة لأنه يتطلب السيطرة الدقيقة على الحركة، والذاكرة طويلة المدى، بالإضافة إلى القدرة على التعميم إلى مهام وبيئات لم يتم رؤيتها سابقًا. لمعالجة هذه التحديات، نقترح نهجًا موحدًا يستند إلى محولات (transformers) يأخذ في الاعتبار عدة إدخالات. وبشكل خاص، يدمج هيكلنا للمحولات (i) التعليمات اللغوية الطبيعية و(ii) مشاهد متعددة الزوايا بينما (iii) يقوم بتتبع التاريخ الكامل للملاحظات والأفعال. يمكّن هذا النهج من تعلم العلاقات بين التاريخ والتعليمات وتحسين دقة التلاعب باستخدام عدة زوايا رؤية. قمنا بتقييم طريقتنا على معيار RLBench الصعب وعلى روبوت حقيقي. ومن الجدير بالذكر أن نهجنا يمكن توسيعه ليشمل 74 مهمة متنوعة في RLBench ويتفوق على أفضل التقنيات الحالية. كما نعالج المهام المشروطة بالتعليمات ونبين قدرتها الممتازة على التعميم إلى تباينات لم يتم رؤيتها سابقًا.