VRBench: معيار للاستدلال متعدد الخطوات في مقاطع الفيديو нарративной الطويلة

نقدم VRBench، أول معيار فيديو روايي طويل مصمم لتقييم قدرات التفكير المتعدد الخطوات للنماذج الكبيرة، معالجة القيود الموجودة في التقييمات الحالية التي تتجاهل التفكير الزمني والصوابية الإجرائية. يتكون هذا المعيار من 1,010 فيديوهات طويلة (مع متوسط مدة 1.6 ساعة)، بالإضافة إلى 9,468 زوج أسئلة وإجابات متعددة الخطوات تم تصنيفها بواسطة البشر و30,292 خطوة تفكير مصحوبة بأوقات زمنية. تم جمع هذه الفيديوهات عبر عملية فلترة متعددة المراحل تشمل مراجعة الخبراء لضمان تماسك القصة. طورنا إطارًا للتعاون بين الإنسان والذكاء الاصطناعي يولد سلاسل تفكير متماسكة، كل منها يتطلب عدة خطوات مؤسسة على أساس زمني، وتغطي سبع أنواع (مثل نسب الأحداث، الاستدلال الضمني). صمم VRBench أنبوب تقييم متعدد المراحل يقيم النماذج على مستويين: مستوى النتيجة ومستوى العملية. بالإضافة إلى الأسئلة ذات الخيارات المتعددة للنتائج النهائية، نقترح مقياس تقييم مرشح بواسطة النموذج اللغوي الكبير (LLM) على مستوى التقدم لتقييم جودة سلسلة التفكير من أبعاد متعددة بشكل شامل. من خلال تقييمات واسعة لـ 12 نموذجًا لغويًا كبيرًا (LLM) و16 نموذجًا بصرى-لغويًا كبيرًا (VLM) على VRBench، نقوم بتحليل شامل ونقدم رؤى قيمة تسهم في تقدم مجال التفكير المتعدد الخطوات.