DreamVLA: نموذج الرؤية واللغة والعمل المُستوحى من المعرفة الشاملة عن العالم

التطورات الحديثة في نماذج الرؤية-اللغة-الفعل (VLA) أظهرت إمكاناتها في دمج توليد الصور مع التنبؤ بالفعل لتحسين التعميم والاستدلال في تشغيل الروبوتات. ومع ذلك، فإن الطرق الحالية محدودة عند التنبؤ بالصور المعقدة، والتي تعاني من المعلومات الزائدة وتفتقر إلى المعرفة العالمية الشاملة والمهمة، بما في ذلك المعلومات الديناميكية والمكانيّة والدلالية. لمعالجة هذه القيود، نقترح DreamVLA، وهو إطار جديد لنماذج الرؤية-اللغة-الفعل يدمج التنبؤ بالمعرفة العالمية الشاملة لتمكين نمذجة الديناميكيات العكسية، وبالتالي إنشاء حلقة تفاعل بين الإدراك والتنبؤ والفعل للمهام التشغيلية. بصفة خاصة، يُدخل DreamVLA تنبؤًا بالمعرفة العالمية موجهًا بالمناطق الديناميكية، مدمجًا مع المؤشرات المكانية والدلالية، مما يوفر تمثيلات مضغوطة ولكن شاملة للتخطيط للفعل. هذا التصميم يتماشى مع كيفية تفاعل البشر مع العالم من خلال تكوين سلاسل استدلال متعددة الوسائط بشكل م مجرّد قبل القيام بالأفعال. لتخفيض التداخل بين المعلومات الديناميكية والمكانيّة والدلالية أثناء التدريب، نعتمد آلية انتباه ذات بنية كتل (block-wise structured attention mechanism) تخفي انتباهها المتبادل، مما يمنع تسرب المعلومات ويحافظ على كل تمثيل نظيف ومفكك. بالإضافة إلى ذلك، لنمذجة التوزيع الشرطي للأفعال المستقبلية، نستخدم محولًا مستندًا إلى الانبعاث (diffusion-based transformer) يفصل تمثيلات الأفعال عن الخصائص الكامنة المشتركة. التجارب الواسعة التي أجريت في بيئات حقيقية ومحاكاة أثبتت أن DreamVLA حققت معدل نجاح بنسبة 76.7% في مهام الروبوتات الحقيقية وطولًا متوسطًا قدره 4.44 على مقاييس CALVIN ABC-D.