HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

UNO-Bench: معيار موحد لاستكشاف القانون التكويني بين النمط الواحد والنمط الشامل في النماذج الشاملة

Chen Chen ZeYang Hu Fengjiao Chen Liya Ma Jiaxing Liu Xiaoyu Li Ziwen Wang Xuezhi Cao Xunliang Cai

UNO-Bench: معيار موحد لاستكشاف القانون التكويني بين النمط الواحد والنمط الشامل في النماذج الشاملة

الملخص

تتقدم النماذج الكبيرة متعددة الوسائط من الفهم الأحادي الوسائط نحو دمج الوسائط البصرية والصوتية واللغوية معًا، ويُعرف هذا التطور collectively باسم النماذج الشاملة (omni models). ومع ذلك، لا تزال العلاقة بين الأداء الأحادي الوسائط والأداء الشامل غير واضحة، مما يستدعي إجراء تقييم شامل لدفع تطور ذكاء النماذج الشاملة. في هذا العمل، نقدّم معيارًا جديدًا عالي الجودة ومُوحَّدًا للنماذج الشاملة، يُسمى UNO-Bench. تم تصميم هذا المعيار لتقييم كفاءات الأداء الأحادي والشامل ضمن تصنيف موحد للقدرات، ويغطي 44 نوعًا من المهام و5 تراكيب مختلفة للوسائط. يضم المعيار 1250 عينة تم اختيارها يدويًا لتمثيل السياقات الشاملة، مع معدل حل عبر الوسائط بنسبة 98%، بالإضافة إلى 2480 عينة محسّنة للأداء الأحادي. يُعدّ هذا المجموعة المُولَّدة من قبل البشر مناسبة جدًا للسياقات الواقعية، خاصة في السياق الصيني، بينما توفر المجموعة المُضغوطة تلقائيًا زيادة بنسبة 90% في السرعة مع الحفاظ على اتساق بنسبة 98% عبر 18 معيارًا عامًا. وبالإضافة إلى الأسئلة المتعددة الخيارات التقليدية، نقترح تنسيقًا جديدًا للأسئلة المفتوحة متعددة الخطوات لتقييم الاستدلال المعقد. كما تم دمج نموذج تقييم عام يدعم تقييمًا آليًا لستة أنواع من الأسئلة بدقة تصل إلى 95%. أظهرت النتائج التجريبية وجود قانون تركيبي بين الأداء الشامل والأداء الأحادي، حيث يظهر الأداء الشامل تأثيرًا كأنه عائق في النماذج الضعيفة، بينما يُظهر تأثيرًا تكامليًا مُعزّزًا في النماذج القوية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UNO-Bench: معيار موحد لاستكشاف القانون التكويني بين النمط الواحد والنمط الشامل في النماذج الشاملة | الأوراق البحثية | HyperAI