الملخص

نقدم نموذج WorldVLA، وهو نموذج عالمي تنبؤي يوحّد فهم وإنشاء الأفعال والصور. يقوم نموذج WorldVLA الخاص بنا بدمج نموذج الرؤية-اللغة-الفعل (VLA) ونموذج العالم في إطار واحد موحد. يتنبأ نموذج العالم بالصور المستقبلية من خلال الاستفادة من فهم الأفعال والصور، وذلك بهدف تعلم الفيزياء الأساسية للبيئة لتحسين إنشاء الأفعال. في الوقت نفسه، يولد النموذج الفعلي الأفعال اللاحقة بناءً على الملاحظات البصرية، مما يساعد في فهم الصور ويعزز بدوره إنشاء الصور في نموذج العالم. نثبت أن WorldVLA يتفوق على النماذج الفعلية والعالمية المستقلة، مما يؤكد التحسين المتبادل بين نموذج العالم والنماذج الفعلية. بالإضافة إلى ذلك، وجدنا أن أداء النموذج الفعلي يتدهور عند توليد سلاسل الأفعال بطريقة ذاتية التنبؤ. يمكن تع�يز هذا الظاهرة إلى قدرة النموذج المحدودة على التعميم في توقع الأفعال، مما يؤدي إلى انتشار الأخطاء من الأفعال السابقة إلى اللاحقة. لمعالجة هذه المشكلة، نقترح استراتيجية قناع الانتباه التي تقوم بتغطية الاختيارية للأفعال السابقة أثناء توليد الفعل الحالي، والتي أظهرت تحسينًا كبيرًا في مهمة إنشاء مجموعة الأفعال.

请注意，这里有一些细微的调整以适应阿拉伯语的表达习惯，同时确保了内容的准确性、流畅性和正式性。例如，“autoregressive”被翻译为“ذاتي التنبؤ”，这是在阿拉伯语科技文献中常用的译法；“action chunk generation task”被翻译为“مهمة إنشاء مجموعة الأfacts”，这里的“chunk”指的是动作序列的一部分，因此将其译为“مجموعة”更为合适。希望这些调整能帮助您更好地传达原文的信息。

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار