HyperAIHyperAI
منذ 17 أيام

GR-MG: الاستفادة من البيانات المُعلَّمة جزئيًا من خلال سياسة مُوجَّهة بالهدف متعددة الوسائط

Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong
GR-MG: الاستفادة من البيانات المُعلَّمة جزئيًا من خلال سياسة مُوجَّهة بالهدف متعددة الوسائط
الملخص

لطالما سعى مجتمع الروبوتات إلى تحقيق التلاعب بالروبوتات العامّة باستخدام تعليمات لغوية طبيعية مرنة. أحد التحديات الأساسية هو أن الحصول على مسارات روبوتات مُعلَّمة بالكامل بفعلات ونصوص هو عملية تستهلك وقتًا كثيرًا وتكاليف بشرية عالية. ومع ذلك، فإن البيانات جزئيًا مُعلَّمة، مثل مقاطع فيديو للأنشطة البشرية دون تسميات للإجراءات، أو مسارات روبوتات دون تسميات نصية، هي أسهل بكثير في الجمع. هل يمكننا الاستفادة من هذه البيانات لتعزيز قدرات الروبوتات على التعميم؟ في هذا البحث، نقترح طريقة جديدة تُسمى GR-MG، والتي تدعم التأثير بناءً على تعليمات نصية وصورة هدف. أثناء التدريب، تقوم GR-MG باستخلاص صور الأهداف من المسارات، وتُشغّل التأثير بناءً على النص والصورة الهدف، أو فقط على الصورة في حال عدم توفر النص. أثناء الاستدلال، حيث يتم توفير النص فقط، تقوم GR-MG بإنشاء صورة الهدف باستخدام نموذج تعديل الصور المستند إلى التشتت (diffusion-based image-editing model)، ثم تُشغّل التأثير بناءً على النص والصورة المُنشأة. يمكّن هذا النهج GR-MG من الاستفادة من كميات كبيرة من البيانات الجزئيًا مُعلَّمة، مع الاستمرار في استخدام اللغة لتحديد المهام بشكل مرنا. ولإيجاد صور أهداف دقيقة، نقترح نموذجًا جديدًا لإنشاء صور الأهداف يُوجَّه بالتقدم، والذي يُدخل معلومات تقدم المهمة في عملية الإنشاء. في التجارب المحاكاة، تحسن GR-MG عدد المهام المكتملة متتاليًا بمتوسط 5 من 3.35 إلى 4.04. وفي التجارب على روبوتات حقيقية، تُظهر GR-MG قدرة على تنفيذ 58 مهمة مختلفة، وتحسّن معدل النجاح من 68.7٪ إلى 78.1٪، ومن 44.4٪ إلى 60.6٪ في البيئات البسيطة والقابلة للتعميم على التوالي. كما تتفوّق على الطرق المقارنة في التعلم القليل (few-shot learning) للمهارات الجديدة. تتوفر أشرطة فيديو توضيحية، والكود، ونُسخ احتياطية (checkpoints) على صفحة المشروع: https://gr-mg.github.io/.

GR-MG: الاستفادة من البيانات المُعلَّمة جزئيًا من خلال سياسة مُوجَّهة بالهدف متعددة الوسائط | أحدث الأوراق البحثية | HyperAI