HyperAIHyperAI

Command Palette

Search for a command to run...

اختبار العلماء الأول: استكشاف القدرات المعرفية للنماذج اللغوية الكبيرة المتعددة عبر الإدراك والفهم والاستدلال

الملخص

اكتشافات العلم تعتمد بشكل متزايد على الاستدلال متعدد الوسائط المعقدالذي يرتكز على بيانات علمية مكثفة ومعرفة خاصة بالحقل. بفضل المقاييس العلمية التي تصل إلى مستوى الخبراء، يمكن للنماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) أن تساهم بشكل كبير في تعزيز عملية الاكتشاف هذه في سير العمل الحقيقي. ومع ذلك، فإن معظم المقاييس العلمية الحالية تركز على تقييم قدرات فهم المعرفة لهذه النماذج، مما يؤدي إلى تقييم غير كافٍ لقدراتها الإدراكية والاستدلالية. لسد هذا الفجوة، نقدم مقاييس "امتحان العلماء الأول" (SFE)، المصمم لتقييم القدرات الإدراكية العلمية للنماذج اللغوية الكبيرة متعددة الوسائط من خلال ثلاثة مستويات مترابطة: إدراك الإشارات العلمية، فهم الخصائص العلمية، والاستدلال المقارن العلمي. تحديداً، يتضمن SFE 830 زوجاً من أسئلة الاستجواب البصرية واللغوية (VQA) التي تم التحقق منها من قبل خبراء وتشمل ثلاثة أنواع من الأسئلة، وتغطي 66 مهمة متعددة الوسائط عبر خمسة حقول ذات قيمة عالية. أظهرت التجارب الشاملة أن أفضل النماذج الحالية GPT-3 وInternVL-3 حققتا نسبة 34.08٪ و26.52٪ فقط على SFE، مما يشير إلى وجود مجال كبير للتحسين في المجالات العلمية بالنسبة للنماذج اللغوية الكبيرة متعددة الوسائط. نأمل أن تسهم الرؤى المستحصلة من SFE في تحقيق المزيد من التطورات في الاكتشافات العلمية المعززة بالذكاء الاصطناعي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp