Premier Examen des Scientifiques : Étude des Capacités Cognitives des MLLM par le Biais de la Perception, de la Compréhension et du Raisonnement

Les découvertes scientifiques s'appuient de plus en plus sur un raisonnement multimodal complexe basé sur des données scientifiques intensives et une expertise spécifique à chaque domaine. Grâce aux référentiels scientifiques de niveau expert, les Modèles Linguistiques Multimodaux (MLLMs) ont le potentiel d'améliorer considérablement ce processus de découverte dans des flux de travail réalistes. Cependant, les référentiels scientifiques actuels se concentrent principalement sur l'évaluation des capacités de compréhension des connaissances des MLLMs, conduisant à une évaluation insuffisante de leurs aptitudes perceptives et de raisonnement. Pour combler cette lacune, nous présentons le référentiel du Premier Examen des Scientifiques (SFE), conçu pour évaluer les capacités cognitives scientifiques des MLLMs à travers trois niveaux interconnectés : la perception du signal scientifique, la compréhension des attributs scientifiques et le raisonnement comparatif scientifique. Plus précisément, SFE comprend 830 paires VQA vérifiées par des experts réparties en trois types de questions, couvrant 66 tâches multimodales dans cinq disciplines à forte valeur ajoutée. Des expériences approfondies montrent que les modèles GPT-3 et InternVL-3 les plus performants actuellement atteignent seulement 34,08 % et 26,52 % sur SFE, soulignant un vaste champ d'amélioration pour les MLLMs dans les domaines scientifiques. Nous espérons que les insights obtenus grâce à SFE faciliteront davantage les développements dans les découvertes scientifiques assistées par l'IA.