HyperAI

Erste Prüfung der Wissenschaftler: Untersuchung der kognitiven Fähigkeiten von MLLM durch Wahrnehmung, Verstehen und Schlussfolgerung

Zhou, Yuhao ; Wang, Yiheng ; He, Xuming ; Xiao, Ruoyao ; Li, Zhiwei ; Feng, Qiantai ; Guo, Zijie ; Yang, Yuejin ; Wu, Hao ; Huang, Wenxuan ; Wei, Jiaqi ; Si, Dan ; Yao, Xiuqi ; Bu, Jia ; Huang, Haiwen ; Fu, Tianfan ; Tang, Shixiang ; Fei, Ben ; Zhou, Dongzhan ; Ling, Fenghua ; Lu, Yan ; Sun, Siqi ; Li, Chenhui ; Zheng, Guanjie ; Lv, Jiancheng ; Zhang, Wenlong ; Bai, Lei
Veröffentlichungsdatum: 6/17/2025
Erste Prüfung der Wissenschaftler: Untersuchung der kognitiven Fähigkeiten von MLLM durch Wahrnehmung, Verstehen und Schlussfolgerung
Abstract

Wissenschaftliche Entdeckungen basieren zunehmend auf komplexer multimodaler Schlussfolgerung, die auf informationsreichen wissenschaftlichen Daten und fachspezifischem Expertenwissen aufbaut. Gestützt durch wissenschaftliche Benchmarks auf Expertenniveau können multimodale große Sprachmodelle (MLLMs) das Entdeckungsprozess in realistischen Arbeitsabläufen erheblich verbessern. Derzeit konzentrieren sich jedoch die meisten wissenschaftlichen Benchmarks hauptsächlich auf die Bewertung der Wissensverarbeitungsfähigkeiten von MLLMs, was zu einer unzureichenden Beurteilung ihrer Wahrnehmungs- und Schlussfolgerungsfähigkeiten führt. Um diese Lücke zu schließen, präsentieren wir den Benchmark "Scientists' First Exam" (SFE), der darauf ausgelegt ist, die wissenschaftlichen kognitiven Fähigkeiten von MLLMs durch drei miteinander verbundene Ebenen zu bewerten: wissenschaftliche Signalwahrnehmung, wissenschaftliches Attributverständnis und wissenschaftliches vergleichendes Denken. Insbesondere umfasst SFE 830 von Experten verifizierte VQA-Paare (Visual Question Answering) über drei Fragearten, die 66 multimodale Aufgaben in fünf hochwertigen Disziplinen abdecken. Ausführliche Experimente zeigen, dass aktuelle state-of-the-art-Modelle wie GPT-3 und InternVL-3 bei SFE nur 34,08 % und 26,52 % erreichen, was deutlich zeigt, dass es noch erhebliches Potenzial für Verbesserungen von MLLMs im wissenschaftlichen Bereich gibt. Wir hoffen, dass die Erkenntnisse aus SFE weitere Fortschritte bei künstlich-intelligenzgestützten wissenschaftlichen Entdeckungen fördern werden.