MiCo: التباين متعدد الصور للتفكير البصري التعزيزي

يستكشف هذا البحث تمكين عملية التفكير المتسلسل (Chain-of-Thought - CoT) لربط العلامات البصرية عبر صور متعددة. الحل المباشر هو تكييف التعلم التعزيزي القائم على القواعد لنموذج الرؤية واللغة (Vision-Language Model - VLM). ومع ذلك، تعتمد مثل هذه الطرق عادةً على أزواج الأسئلة والأجوبة التي يتم جمعها يدويًا، مما يمكن أن يكون تحديًا خاصًا عند التعامل مع التفاصيل البصرية الدقيقة والمنطق المعقد بين الصور. مستوحى من تعلم التمثيل البصري الذاتي الإشراف، نلاحظ أن الصور تحتوي على قيود متأصلة يمكن أن تعمل كإشراف. بناءً على هذا الفهم، نقوم ببناء ثلاثيات صورية تتكون من صورتين مشتقتيين من نفس الصورة وصورة ثالثة مشابهة ولكن مختلفة. أثناء التدريب، يتم دفع النموذج لإنشاء عملية تفكير لمقارنة هذه الصور (أي تحديد ما إذا كانت متطابقة أو مختلفة). ثم نقوم بتحسين النموذج باستخدام التعلم التعزيزي القائم على القواعد. بسبب الشبه البصري العالي وجودة الاشتقاقات، يجب على النموذج التركيز على التغييرات البصرية الدقيقة وإجراء الاستدلال المنطقي للنجاح. تظهر التجارب أن القدرة على الاستدلال التي تم تعلمها، رغم أنها تم تدريبها فقط على مهام المقارنة البصرية، تنطبق بشكل فعال على مجموعة واسعة من الأسئلة. دون الاعتماد على أي أزواج أسئلة وأجوبة تم إنشاؤها يدويًا، حققت طريقتنا تحسينات كبيرة في مقاييس الاستدلال المتعدد للصور وأظهرت أداءً قويًا في المهام البصرية العامة.