Command Palette
Search for a command to run...
Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

الملخص
إن تنفيذ المهام المشروطة بلغة في بيئات بصرية ديناميكية يظل التحدي الرئيسي في الذكاء الاصطناعي الجسدي. تعتمد النماذج الحالية من نوع الرؤية واللغة والعمل (VLA) بشكل أساسي على خرائط استجابة من الحالة إلى العمل، مما يؤدي غالبًا إلى سلوك قصير النظر وضعف المرونة في المشاهد الديناميكية. في هذه الورقة، نقدم نموذج F1، وهو إطار مُدرَّب مسبقًا من نوع VLA، يدمج توليد الرؤية المستقبلية البصرية في خط أنابيب اتخاذ القرار. يعتمد F1 على بنية مزيج من المحولات (Mixture-of-Transformer) تتضمن وحدات مخصصة للإدراك، وتوليد الرؤية المستقبلية، والتحكم، مما يربط بين الفهم، والتوليد، والإجراءات. في جوهره، يستخدم F1 آلية تنبؤ على مستوى متقدم (next-scale prediction) لتوليد رؤية بصرية مستقبلية مشروطة بالهدف كأهداف تخطيط صريحة. وباستخدام التنبؤ بالحالات البصرية المستقبلية الممكنة، يعيد F1 صياغة عملية توليد الإجراءات كمشكلة ديناميكية عكسية تُرشد بالرؤية المستقبلية، مما يمكّن من اتخاذ إجراءات تحقق الأهداف البصرية ضمنيًا. ولمنح F1 قدرات قوية وقابلة للتطبيق بشكل عام، نقترح وصفة تدريب مكونة من ثلاث مراحل على مجموعة بيانات واسعة تتضمن أكثر من 330 ألف مسار عبر 136 مهمة متنوعة. يعزز هذا النموذج التدريبي التفكير الوحدوي، ويمنح النموذج رؤية بصرية مستقبلية قابلة للنقل، وهي مهارة بالغة الأهمية في البيئات المعقدة والديناميكية. وتبين التقييمات الواسعة على مهام حقيقية وعلى معايير محاكاة أن F1 يتفوق باستمرار على الأساليب الحالية، ويحقق مكاسب كبيرة في معدل نجاح المهام وقدرة التعميم.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.