Command Palette
Search for a command to run...
VLA-RFT: التدريب الدقيق المعزز بالفعل واللغة والرؤية مع مكافآت مُتحقق منها في محاكيات العالم

الملخص
تمكّن نماذج الرؤية واللغة والعمل (VLA) من اتخاذ قرارات مُتَّصلة بالبيئة، لكنها تعتمد بشكل كبير على التعلّم بالمحاكاة، ما يؤدي إلى تراكم الأخطاء وضعف المرونة عند حدوث انزياح في التوزيع. يمكن لتعلم التقويم (RL) التخفيف من هذه المشكلات، لكنه غالبًا ما يتطلب تفاعلات مكلفة في العالم الحقيقي أو يعاني من فجوات بين البيئة الافتراضية والواقع. نقدم نموذج VLA-RFT، وهو إطار لتحسين التقويم القائم على التعلم، يعتمد على نموذج عالم مبني على البيانات كمحاكي قابِل للتحكم. تم تدريب هذا المحاكي باستخدام بيانات تفاعلات حقيقية، حيث يتنبأ بمشاهد بصرية مستقبلية بناءً على الإجراءات المُتَّخذة، مما يسمح بتنفيذ سياسات (policy rollouts) مدعومة ب rewarded كثيفة على مستوى المسار، مستمدة من مراجع تحقق الأهداف. يُوفّر هذا التصميم إشارة تعلّم فعّالة ومُتماشية مع الإجراءات، مما يقلّل بشكل كبير من متطلبات العينات. وباستخدام أقل من 400 خطوة لتحسين النموذج، يتفوّق VLA-RFT على النماذج المُعلّمة بطرق مُراقبة قوية، ويحقق كفاءة أعلى من تعلم التقويم القائم على المحاكاة. علاوةً على ذلك، يُظهر نموذج VLA-RFT قدرة عالية على المرونة في الظروف المشوّشة، مع الحفاظ على أداء مستقر في تنفيذ المهام. تُثبت نتائجنا أن نموذج العالم القائم على التعلم يُمثّل نموذجًا عمليًا للتحسين ما بعد التدريب، يعزّز من قدرة نماذج VLA على التعميم والثبات. لمزيد من التفاصيل، يُرجى الرجوع إلى: https://vla-rft.github.io/.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.