منذ 13 أيام

رؤية فكر: نموذج لغة بصرية ذكي وكفء عبر التعلم التعزيزي

Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia

الملخص

التطورات الحديثة في نماذج الرؤية واللغة (VLMs) قد أحسنت الأداء من خلال زيادة عدد الرموز البصرية، والتي غالباً ما تكون أطول بكثير من الرموز النصية. ومع ذلك، نلاحظ أن معظم السيناريوهات الواقعية لا تتطلب مثل هذا العدد الكبير من الرموز البصرية. بينما تنخفض الأداء بشكل كبير في مجموعة صغيرة من المهام المتعلقة بتحويل النصوص البصرية إلى نصوص قابلة للقراءة (OCR)، فإن النماذج لا تزال تؤدي بدقة في معظم المهام الأخرى العامة ذات الأسئلة المرئية والنصية (VQA) مع دقة تبلغ ربع الدقة الأصلية فقط. لذلك، نقترح معالجة العينات المختلفة بطرق ديناميكية وبدقة مختلفة، ونقدم نموذجاً جديداً لضغط الرموز البصرية يُسمى VisionThink. يبدأ هذا النموذج بصورة مُقلَّصة ويقرر بذكاء ما إذا كانت كافية لحل المشكلة. إذا لم تكن كذلك، يمكن للنموذج إنتاج رمز خاص لطلب صورة بدقة أعلى. بالمقارنة مع الطرق الحالية لنماذج الرؤية واللغة الفعالة التي تقيد الرموز باستخدام نسب تقليم ثابتة أو حدود، فإن VisionThink يقرر بشكل مستقل ما إذا كان يجب ضغط الرموز لكل حالة على حدة. نتيجة لذلك، يظهر قدرة قوية على فهم التفاصيل البصرية في المهام المتعلقة بـ OCR، وفي الوقت نفسه يوفر عدداً كبيراً من الرموز البصرية في المهام الأبسط. لقد اعتمدنا التعلم التعزيزي وأقترحنا استراتيجية LLM-as-Judge لتطبيق RL بنجاح على المهام العامة ذات الأسئلة المرئية والنصية (VQA). بالإضافة إلى ذلك، صممنا بعناية دالة مكافأة وآليات عقوبة لتحقيق نسبة استدعاء صور مقبولة ومستقرة. تُظهر التجارب الواسعة التفوق والكفاءة والفعالية لطريقتنا. يمكن الوصول إلى شفرتنا البرمجية عبر الرابط: https://github.com/dvlab-research/VisionThink.