Command Palette
Search for a command to run...
BagelVLA: تحسين التلاعب بفترة طويلة من خلال التوليد المتناوب للرؤية واللغة والفعل
BagelVLA: تحسين التلاعب بفترة طويلة من خلال التوليد المتناوب للرؤية واللغة والفعل
الملخص
تُعدّ قدرة الوكلاء المُجسمين على التفكير في المهام، وتوقع النتائج الفيزيائية، وإنتاج إجراءات دقيقة أمرًا جوهريًا لتحقيق التحكم العام في المهام. وعلى الرغم من أن النماذج الحديثة التي تدمج الرؤية واللغة والفعل (VLA) قد استخدمت نماذج أساسية مُدرّبة مسبقًا، إلا أنها تركز غالبًا إما على التخطيط اللغوي أو التنبؤ البصري بشكل منفصل. ولا تدمج هذه الأساليب عادةً كلا القدرتين معًا في آنٍ واحد لقيادة إنتاج الإجراءات، مما يؤدي إلى أداء غير مثالي في المهام المعقدة ذات المدى الطويل. ولسد هذه الفجوة، نقترح نموذج "BagelVLA"، وهو نموذج موحد يدمج التفكير اللغوي، والتنبؤ البصري، وإنتاج الإجراءات ضمن إطار موحد. يتم تهيئة BagelVLA من نموذج موحد مُدرّب مسبقًا على الفهم والتأليف، ويتم تدريبه على دمج التفكير النصي والتنبؤ البصري بشكل متداخل مباشرةً في دورة تنفيذ الإجراءات. ولتمكين الترابط الفعّال بين هذه الوسائط المتعددة، نقدّم تقنية "التوجيه بالتدفق المتبقي" (Residual Flow Guidance - RFG)، التي تبدأ من الملاحظة الحالية، وتستفيد من عملية إزالة الضوضاء ذات خطوة واحدة لاستخراج ميزات بصرية تنبؤية، مما يوجه إنتاج الإجراءات بحد أدنى من التأخير. تُظهر التجارب الواسعة أن BagelVLA يتفوّق على النماذج الأساسية الحالية بفارق كبير على عدة معايير محاكاة وواقعية، وخاصة في المهام التي تتطلب تفكيرًا متعدد المراحل.