HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

F1: نموذج رؤية-لغة-عمل يُجسّد الفهم والإنتاج من خلال الإجراءات

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

F1: نموذج رؤية-لغة-عمل يُجسّد الفهم والإنتاج من خلال الإجراءات

الملخص

إن تنفيذ المهام المشروطة بلغة في بيئات بصرية ديناميكية يظل التحدي الرئيسي في الذكاء الاصطناعي الجسدي. تعتمد النماذج الحالية من نوع الرؤية واللغة والعمل (VLA) بشكل أساسي على خرائط استجابة من الحالة إلى العمل، مما يؤدي غالبًا إلى سلوك قصير النظر وضعف المرونة في المشاهد الديناميكية. في هذه الورقة، نقدم نموذج F1، وهو إطار مُدرَّب مسبقًا من نوع VLA، يدمج توليد الرؤية المستقبلية البصرية في خط أنابيب اتخاذ القرار. يعتمد F1 على بنية مزيج من المحولات (Mixture-of-Transformer) تتضمن وحدات مخصصة للإدراك، وتوليد الرؤية المستقبلية، والتحكم، مما يربط بين الفهم، والتوليد، والإجراءات. في جوهره، يستخدم F1 آلية تنبؤ على مستوى متقدم (next-scale prediction) لتوليد رؤية بصرية مستقبلية مشروطة بالهدف كأهداف تخطيط صريحة. وباستخدام التنبؤ بالحالات البصرية المستقبلية الممكنة، يعيد F1 صياغة عملية توليد الإجراءات كمشكلة ديناميكية عكسية تُرشد بالرؤية المستقبلية، مما يمكّن من اتخاذ إجراءات تحقق الأهداف البصرية ضمنيًا. ولمنح F1 قدرات قوية وقابلة للتطبيق بشكل عام، نقترح وصفة تدريب مكونة من ثلاث مراحل على مجموعة بيانات واسعة تتضمن أكثر من 330 ألف مسار عبر 136 مهمة متنوعة. يعزز هذا النموذج التدريبي التفكير الوحدوي، ويمنح النموذج رؤية بصرية مستقبلية قابلة للنقل، وهي مهارة بالغة الأهمية في البيئات المعقدة والديناميكية. وتبين التقييمات الواسعة على مهام حقيقية وعلى معايير محاكاة أن F1 يتفوق باستمرار على الأساليب الحالية، ويحقق مكاسب كبيرة في معدل نجاح المهام وقدرة التعميم.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
F1: نموذج رؤية-لغة-عمل يُجسّد الفهم والإنتاج من خلال الإجراءات | الأوراق البحثية | HyperAI