منذ 8 أشهر

الملخص

نقدم VRBench، أول معيار فيديو روايي طويل مصمم لتقييم قدرات التفكير المتعدد الخطوات للنماذج الكبيرة، معالجة القيود الموجودة في التقييمات الحالية التي تتجاهل التفكير الزمني والصوابية الإجرائية. يتكون هذا المعيار من 1,010 فيديوهات طويلة (مع متوسط مدة 1.6 ساعة)، بالإضافة إلى 9,468 زوج أسئلة وإجابات متعددة الخطوات تم تصنيفها بواسطة البشر و30,292 خطوة تفكير مصحوبة بأوقات زمنية. تم جمع هذه الفيديوهات عبر عملية فلترة متعددة المراحل تشمل مراجعة الخبراء لضمان تماسك القصة. طورنا إطارًا للتعاون بين الإنسان والذكاء الاصطناعي يولد سلاسل تفكير متماسكة، كل منها يتطلب عدة خطوات مؤسسة على أساس زمني، وتغطي سبع أنواع (مثل نسب الأحداث، الاستدلال الضمني). صمم VRBench أنبوب تقييم متعدد المراحل يقيم النماذج على مستويين: مستوى النتيجة ومستوى العملية. بالإضافة إلى الأسئلة ذات الخيارات المتعددة للنتائج النهائية، نقترح مقياس تقييم مرشح بواسطة النموذج اللغوي الكبير (LLM) على مستوى التقدم لتقييم جودة سلسلة التفكير من أبعاد متعددة بشكل شامل. من خلال تقييمات واسعة لـ 12 نموذجًا لغويًا كبيرًا (LLM) و16 نموذجًا بصرى-لغويًا كبيرًا (VLM) على VRBench، نقوم بتحليل شامل ونقدم رؤى قيمة تسهم في تقدم مجال التفكير المتعدد الخطوات.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VRBench: معيار للاستدلال متعدد الخطوات في مقاطع الفيديو нарративной الطويلة

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng24 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VRBench: معيار للاستدلال متعدد الخطوات في مقاطع الفيديو нарративной الطويلة

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng24 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VRBench: معيار للاستدلال متعدد الخطوات في مقاطع الفيديو нарративной الطويلة

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng24 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng