صفر الرؤية: تحسين ذاتي مُ-scalable للنماذج اللغوية والبصرية من خلال لعب ذاتي استراتيجي مُمَلَّه

رغم أن التعلم بالتعزيز (RL) يمكنه تعزيز قدرات التفكير لدى نماذج الرؤية واللغة (VLMs) بشكل فعّال، إلا أن الطرق الحالية ما زالت تعتمد بشكل كبير على مجموعات بيانات تتطلب جهودًا يدوية كبيرة، تتضمن بناءً وتحقيقًا مكثفين، ما يؤدي إلى تكاليف تدريب مرتفعة جدًا، وبالتالي يُحد من التوظيف العملي لنموذج VLMs. ولحل هذه التحديات، نقترح إطار "Vision-Zero"، وهو إطار عام لا يرتبط بمجال معين، يُمكّن نماذج VLM من التحسين الذاتي من خلال مباريات بصرية تنافسية تُولَّد من أزواج صور عشوائية. وبشكل محدد، يتضمن Vision-Zero ثلاث خصائص رئيسية: (1) إطار اللعب الاستراتيجي الذاتي: يُدرّب Vision-Zero نماذج VLM في ألعاب من نوع "من هو الجواسيس؟"، حيث تشارك النماذج في تفكير استراتيجي واتخاذ إجراءات عبر أدوار متعددة. وبفضل التفاعل في اللعب، تُولِّد النماذج بيانات تدريبها ذاتيًا دون الحاجة إلى تسمية يدوية من قبل البشر. (2) إمكانية إنشاء مباريات من صور عشوائية: على عكس الأطر المُمَعَّنة الحالية، يمكن لـ Vision-Zero توليد مباريات من أي صور، مما يعزز قدرة النموذج على التفكير عبر مجالات متنوعة، ويُظهر قدرة قوية على التعميم على مهام مختلفة. ونُظهر هذه المرونة باستخدام ثلاث أنواع مختلفة من مجموعات الصور: مشاهد صناعية مبنية على CLEVR، والرسوم البيانية، والصور الواقعية. (3) تحسن مستدام في الأداء: نقدّم خوارزمية تدريب جديدة تُسمى "تحسين سياسة اللعب الذاتي التكراري" (Iterative-SPO)، التي تتناوب بين اللعب الذاتي والتعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR)، ما يقلل من ظاهرة التوقف في الأداء التي تظهر غالبًا في التدريب الذي يعتمد فقط على اللعب الذاتي، ويحقق تحسينات طويلة الأمد مستدامة. وعلى الرغم من استخدامه لبيانات خالية من التسميات، يحقق Vision-Zero أداءً من الدرجة الأولى في مهام التفكير، وإجابة الأسئلة عن الرسوم البيانية، وفهم المهام المرتبطة بالرؤية، متفوقًا على الطرق الأخرى التي تعتمد على التسمية. تم إصدار النماذج والكود على الرابط: https://github.com/wangqinsi1/Vision-Zero.