الملخص

تُعدّ قدرة الوكلاء المُجسمين على التفكير في المهام، وتوقع النتائج الفيزيائية، وإنتاج إجراءات دقيقة أمرًا جوهريًا لتحقيق التحكم العام في المهام. وعلى الرغم من أن النماذج الحديثة التي تدمج الرؤية واللغة والفعل (VLA) قد استخدمت نماذج أساسية مُدرّبة مسبقًا، إلا أنها تركز غالبًا إما على التخطيط اللغوي أو التنبؤ البصري بشكل منفصل. ولا تدمج هذه الأساليب عادةً كلا القدرتين معًا في آنٍ واحد لقيادة إنتاج الإجراءات، مما يؤدي إلى أداء غير مثالي في المهام المعقدة ذات المدى الطويل. ولسد هذه الفجوة، نقترح نموذج "BagelVLA"، وهو نموذج موحد يدمج التفكير اللغوي، والتنبؤ البصري، وإنتاج الإجراءات ضمن إطار موحد. يتم تهيئة BagelVLA من نموذج موحد مُدرّب مسبقًا على الفهم والتأليف، ويتم تدريبه على دمج التفكير النصي والتنبؤ البصري بشكل متداخل مباشرةً في دورة تنفيذ الإجراءات. ولتمكين الترابط الفعّال بين هذه الوسائط المتعددة، نقدّم تقنية "التوجيه بالتدفق المتبقي" (Residual Flow Guidance - RFG)، التي تبدأ من الملاحظة الحالية، وتستفيد من عملية إزالة الضوضاء ذات خطوة واحدة لاستخراج ميزات بصرية تنبؤية، مما يوجه إنتاج الإجراءات بحد أدنى من التأخير. تُظهر التجارب الواسعة أن BagelVLA يتفوّق على النماذج الأساسية الحالية بفارق كبير على عدة معايير محاكاة وواقعية، وخاصة في المهام التي تتطلب تفكيرًا متعدد المراحل.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

BagelVLA: تحسين التلاعب بفترة طويلة من خلال التوليد المتناوب للرؤية واللغة والفعل

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BagelVLA: تحسين التلاعب بفترة طويلة من خلال التوليد المتناوب للرؤية واللغة والفعل

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BagelVLA: تحسين التلاعب بفترة طويلة من خلال التوليد المتناوب للرؤية واللغة والفعل

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang