HyperAI
منذ 17 أيام

البرهان المرئي المدعم بالأدلة القابلة للتتبع: التقييم والمنهجية

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang
البرهان المرئي المدعم بالأدلة القابلة للتتبع: التقييم والمنهجية
الملخص

النماذج مثل OpenAI-o3 تُعد رائدة في الاستدلال المرتبط بالصورة من خلال الإشارة الديناميكية إلى المناطق البصرية، تمامًا كما يفعل الإنسان عند "التفكير بالصور". ومع ذلك، لا يوجد أي معيار تقييمي شامل لاختبار هذه القدرات. لسد هذا الفجوة، نقترح TreeBench (معيار تقييم الأدلة القابلة للتتبع)، وهو معيار تشخيصي يعتمد على ثلاثة مبادئ: (1) الإدراك البصري المركّز للأهداف الدقيقة في المشاهد المعقدة، (2) الأدلة القابلة للتتبع عبر تقييم الصناديق الحدودية، و(3) الاستدلال من الدرجة الثانية لاختبار التفاعلات بين الأشياء والهرميات المكانية التي تتجاوز تحديد موقع الأشياء ببساطة. مع التركيز على الصور ذات الكثافة العالية من الأشياء، نقوم أولاً بأخذ عينات من 1000 صورة عالية الجودة من SA-1B، وندمج ثمانية خبراء في النماذج اللغوية المتعددة الوسائط لتوثيق الأسئلة والخيارات المرشحة والإجابات لكل صورة. بعد ثلاث مراحل من ضبط الجودة، يتكون TreeBench من 405 زوج سؤال-إجابة بصري صعب، حيث يجد حتى أكثر النماذج تقدمًا صعوبة في التعامل مع هذا المعيار، فلا يصل أي منها إلى دقة 60%، على سبيل المثال، حصلت OpenAI-o3 على درجة 54.87 فقط. بالإضافة إلى ذلك، نقدم TreeVGR (استدلال بصري قابل للتتبع معزز بالأدلة)، وهو نموذج تدريب يشرف على التحديد والاستدلال بشكل مشترك باستخدام التعلم التعزيزي، مما يمكنه من تحقيق تحديدات دقيقة وممرات استدلال قابلة للشرح. بدءًا من Qwen2.5-VL-7B، يتم تحسين V* Bench (+16.8)، MME-RealWorld (+12.6)، وTreeBench (+13.4)، مما يثبت أن القابلية للتتبع هي المفتاح للتقدم في الاستدلال المرتبط بالرؤية. الرمز البرمجي متاح على https://github.com/Haochen-Wang409/TreeVGR.