الملخص

التطورات الملحوظة في نماذج أساس الرؤية واللغة في فهم الأنظمة المتعددة الأوضاع، والاستدلال، والتوليد قد أثارت جهودًا متزايدة لتوسيع هذه الذكاءات إلى العالم المادي، مما دفع إلى ازدهار نماذج الرؤية-اللغة-الفعل (VLA). على الرغم من تنوع الأساليب الظاهري، نلاحظ أن النماذج الحالية لـ VLA يمكن توحيدها تحت إطار واحد: يتم معالجة مدخلات الرؤية واللغة بواسطة سلسلة من وحدات VLA، مما ينتج سلسلة من رموز الفعل التي ترميز تدريجيًا لمعلومات أكثر تحديدًا وقابلية للتنفيذ، وتنتهي بإنتاج أفعال قابلة للتنفيذ. وقد حددنا أيضًا أن الخيار التصميمي الرئيسي الذي يميز نماذج VLA يكمن في كيفية صياغة رموز الفعل، والتي يمكن تصنيفها إلى وصف اللغة، الكود، الإمكانية (affordance)، المسار (trajectory)، الحالة الهدف (goal state)، التمثيل الخفي (latent representation)، الفعل الخام (raw action)، والاستدلال. ومع ذلك، لا يزال هناك نقص في الفهم الشامل حول رموز الفعل، مما يعرقل بشكل كبير تطوير VLA الفعال ويغطي على الاتجاهات المستقبلية. لذلك، تهدف هذه الاستعراض إلى تصنيف وتفسير الأبحاث الحالية لـ VLA من خلال عدسة تقسيم رموز الفعل، واستخلاص نقاط القوة والضعف لكل نوع من الرموز، وتحديد المجالات التي تحتاج إلى تحسين. ومن خلال هذا الاستعراض والتحليل المنظمين، نقدم رؤية متكاملة بشأن التطور الأوسع لنماذج VLA، ونسلط الضوء على الاتجاهات غير المستكشفة ولكن الواعدة، ونساهم بتوجيه للأبحاث المستقبلية، آملين أن نقرب المجال خطوة نحو الذكاء العام.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

مسح حول نماذج الرؤية واللغة والحركة: من منظور تجزئة الحركة

Yifan Zhong Fengshuo Bai Shaofei Cai Xuchuan Huang Zhang Chen Xiaowei Zhang Yuanfei Wang Shaoyang Guo Tianrui Guan Ka Nam Lui4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مسح حول نماذج الرؤية واللغة والحركة: من منظور تجزئة الحركة

Yifan Zhong Fengshuo Bai Shaofei Cai Xuchuan Huang Zhang Chen Xiaowei Zhang Yuanfei Wang Shaoyang Guo Tianrui Guan Ka Nam Lui4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مسح حول نماذج الرؤية واللغة والحركة: من منظور تجزئة الحركة

Yifan Zhong Fengshuo Bai Shaofei Cai Xuchuan Huang Zhang Chen Xiaowei Zhang Yuanfei Wang Shaoyang Guo Tianrui Guan Ka Nam Lui4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yifan Zhong Fengshuo Bai Shaofei Cai Xuchuan Huang Zhang Chen Xiaowei Zhang Yuanfei Wang Shaoyang Guo Tianrui Guan Ka Nam Lui

Yifan Zhong Fengshuo Bai Shaofei Cai Xuchuan Huang Zhang Chen Xiaowei Zhang Yuanfei Wang Shaoyang Guo Tianrui Guan Ka Nam Lui

Yifan Zhong Fengshuo Bai Shaofei Cai Xuchuan Huang Zhang Chen Xiaowei Zhang Yuanfei Wang Shaoyang Guo Tianrui Guan Ka Nam Lui