الملخص

إن تنفيذ المهام المشروطة بلغة في بيئات بصرية ديناميكية يظل التحدي الرئيسي في الذكاء الاصطناعي الجسدي. تعتمد النماذج الحالية من نوع الرؤية واللغة والعمل (VLA) بشكل أساسي على خرائط استجابة من الحالة إلى العمل، مما يؤدي غالبًا إلى سلوك قصير النظر وضعف المرونة في المشاهد الديناميكية. في هذه الورقة، نقدم نموذج F1، وهو إطار مُدرَّب مسبقًا من نوع VLA، يدمج توليد الرؤية المستقبلية البصرية في خط أنابيب اتخاذ القرار. يعتمد F1 على بنية مزيج من المحولات (Mixture-of-Transformer) تتضمن وحدات مخصصة للإدراك، وتوليد الرؤية المستقبلية، والتحكم، مما يربط بين الفهم، والتوليد، والإجراءات. في جوهره، يستخدم F1 آلية تنبؤ على مستوى متقدم (next-scale prediction) لتوليد رؤية بصرية مستقبلية مشروطة بالهدف كأهداف تخطيط صريحة. وباستخدام التنبؤ بالحالات البصرية المستقبلية الممكنة، يعيد F1 صياغة عملية توليد الإجراءات كمشكلة ديناميكية عكسية تُرشد بالرؤية المستقبلية، مما يمكّن من اتخاذ إجراءات تحقق الأهداف البصرية ضمنيًا. ولمنح F1 قدرات قوية وقابلة للتطبيق بشكل عام، نقترح وصفة تدريب مكونة من ثلاث مراحل على مجموعة بيانات واسعة تتضمن أكثر من 330 ألف مسار عبر 136 مهمة متنوعة. يعزز هذا النموذج التدريبي التفكير الوحدوي، ويمنح النموذج رؤية بصرية مستقبلية قابلة للنقل، وهي مهارة بالغة الأهمية في البيئات المعقدة والديناميكية. وتبين التقييمات الواسعة على مهام حقيقية وعلى معايير محاكاة أن F1 يتفوق باستمرار على الأساليب الحالية، ويحقق مكاسب كبيرة في معدل نجاح المهام وقدرة التعميم.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

F1: نموذج رؤية-لغة-عمل يُجسّد الفهم والإنتاج من خلال الإجراءات

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

F1: نموذج رؤية-لغة-عمل يُجسّد الفهم والإنتاج من خلال الإجراءات

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

F1: نموذج رؤية-لغة-عمل يُجسّد الفهم والإنتاج من خلال الإجراءات

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters