اختبار العلماء الأول: استكشاف القدرات المعرفية للنماذج اللغوية الكبيرة المتعددة عبر الإدراك والفهم والاستدلال

اكتشافات العلم تعتمد بشكل متزايد على الاستدلال متعدد الوسائط المعقدالذي يرتكز على بيانات علمية مكثفة ومعرفة خاصة بالحقل. بفضل المقاييس العلمية التي تصل إلى مستوى الخبراء، يمكن للنماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) أن تساهم بشكل كبير في تعزيز عملية الاكتشاف هذه في سير العمل الحقيقي. ومع ذلك، فإن معظم المقاييس العلمية الحالية تركز على تقييم قدرات فهم المعرفة لهذه النماذج، مما يؤدي إلى تقييم غير كافٍ لقدراتها الإدراكية والاستدلالية. لسد هذا الفجوة، نقدم مقاييس "امتحان العلماء الأول" (SFE)، المصمم لتقييم القدرات الإدراكية العلمية للنماذج اللغوية الكبيرة متعددة الوسائط من خلال ثلاثة مستويات مترابطة: إدراك الإشارات العلمية، فهم الخصائص العلمية، والاستدلال المقارن العلمي. تحديداً، يتضمن SFE 830 زوجاً من أسئلة الاستجواب البصرية واللغوية (VQA) التي تم التحقق منها من قبل خبراء وتشمل ثلاثة أنواع من الأسئلة، وتغطي 66 مهمة متعددة الوسائط عبر خمسة حقول ذات قيمة عالية. أظهرت التجارب الشاملة أن أفضل النماذج الحالية GPT-3 وInternVL-3 حققتا نسبة 34.08٪ و26.52٪ فقط على SFE، مما يشير إلى وجود مجال كبير للتحسين في المجالات العلمية بالنسبة للنماذج اللغوية الكبيرة متعددة الوسائط. نأمل أن تسهم الرؤى المستحصلة من SFE في تحقيق المزيد من التطورات في الاكتشافات العلمية المعززة بالذكاء الاصطناعي.