HyperAIHyperAI

Command Palette

Search for a command to run...

مسح حول نماذج الرؤية واللغة والحركة: من منظور تجزئة الحركة

الملخص

التطورات الملحوظة في نماذج أساس الرؤية واللغة في فهم الأنظمة المتعددة الأوضاع، والاستدلال، والتوليد قد أثارت جهودًا متزايدة لتوسيع هذه الذكاءات إلى العالم المادي، مما دفع إلى ازدهار نماذج الرؤية-اللغة-الفعل (VLA). على الرغم من تنوع الأساليب الظاهري، نلاحظ أن النماذج الحالية لـ VLA يمكن توحيدها تحت إطار واحد: يتم معالجة مدخلات الرؤية واللغة بواسطة سلسلة من وحدات VLA، مما ينتج سلسلة من رموز الفعل التي ترميز تدريجيًا لمعلومات أكثر تحديدًا وقابلية للتنفيذ، وتنتهي بإنتاج أفعال قابلة للتنفيذ. وقد حددنا أيضًا أن الخيار التصميمي الرئيسي الذي يميز نماذج VLA يكمن في كيفية صياغة رموز الفعل، والتي يمكن تصنيفها إلى وصف اللغة، الكود، الإمكانية (affordance)، المسار (trajectory)، الحالة الهدف (goal state)، التمثيل الخفي (latent representation)، الفعل الخام (raw action)، والاستدلال. ومع ذلك، لا يزال هناك نقص في الفهم الشامل حول رموز الفعل، مما يعرقل بشكل كبير تطوير VLA الفعال ويغطي على الاتجاهات المستقبلية. لذلك، تهدف هذه الاستعراض إلى تصنيف وتفسير الأبحاث الحالية لـ VLA من خلال عدسة تقسيم رموز الفعل، واستخلاص نقاط القوة والضعف لكل نوع من الرموز، وتحديد المجالات التي تحتاج إلى تحسين. ومن خلال هذا الاستعراض والتحليل المنظمين، نقدم رؤية متكاملة بشأن التطور الأوسع لنماذج VLA، ونسلط الضوء على الاتجاهات غير المستكشفة ولكن الواعدة، ونساهم بتوجيه للأبحاث المستقبلية، آملين أن نقرب المجال خطوة نحو الذكاء العام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مسح حول نماذج الرؤية واللغة والحركة: من منظور تجزئة الحركة | مستندات | HyperAI