مسح حول نماذج الرؤية واللغة والحركة: من منظور تجزئة الحركة

التطورات الملحوظة في نماذج أساس الرؤية واللغة في فهم الأنظمة المتعددة الأوضاع، والاستدلال، والتوليد قد أثارت جهودًا متزايدة لتوسيع هذه الذكاءات إلى العالم المادي، مما دفع إلى ازدهار نماذج الرؤية-اللغة-الفعل (VLA). على الرغم من تنوع الأساليب الظاهري، نلاحظ أن النماذج الحالية لـ VLA يمكن توحيدها تحت إطار واحد: يتم معالجة مدخلات الرؤية واللغة بواسطة سلسلة من وحدات VLA، مما ينتج سلسلة من رموز الفعل التي ترميز تدريجيًا لمعلومات أكثر تحديدًا وقابلية للتنفيذ، وتنتهي بإنتاج أفعال قابلة للتنفيذ. وقد حددنا أيضًا أن الخيار التصميمي الرئيسي الذي يميز نماذج VLA يكمن في كيفية صياغة رموز الفعل، والتي يمكن تصنيفها إلى وصف اللغة، الكود، الإمكانية (affordance)، المسار (trajectory)، الحالة الهدف (goal state)، التمثيل الخفي (latent representation)، الفعل الخام (raw action)، والاستدلال. ومع ذلك، لا يزال هناك نقص في الفهم الشامل حول رموز الفعل، مما يعرقل بشكل كبير تطوير VLA الفعال ويغطي على الاتجاهات المستقبلية. لذلك، تهدف هذه الاستعراض إلى تصنيف وتفسير الأبحاث الحالية لـ VLA من خلال عدسة تقسيم رموز الفعل، واستخلاص نقاط القوة والضعف لكل نوع من الرموز، وتحديد المجالات التي تحتاج إلى تحسين. ومن خلال هذا الاستعراض والتحليل المنظمين، نقدم رؤية متكاملة بشأن التطور الأوسع لنماذج VLA، ونسلط الضوء على الاتجاهات غير المستكشفة ولكن الواعدة، ونساهم بتوجيه للأبحاث المستقبلية، آملين أن نقرب المجال خطوة نحو الذكاء العام.