BMMR : Un grand ensemble de données bilingue multimodal multidisciplinaire pour le raisonnement

Dans cet article, nous présentons BMMR, un jeu de données à grande échelle bilingue, multimodal et multidisciplinaire, destiné à la communauté pour développer et évaluer des grands modèles multimodaux (LMMs). BMMR comprend 110 000 questions de niveau universitaire couvrant 300 sujets définis par l'UNESCO, sous divers formats : choix multiples, complétion et questions ouvertes, provenant de supports imprimés et numériques tels que des livres, des examens et des quiz. Toutes les données ont été curatées et filtrées via un cadre humainement supervisé et évolutif, chaque instance étant associée à une chaîne de raisonnement de haute qualité. Le jeu de données est organisé en deux parties : BMMR-Eval, qui comprend 20 458 instances de haute qualité pour évaluer de manière exhaustive les connaissances et le raisonnement des LMMs dans plusieurs disciplines en chinois et en anglais ; et BMMR-Train, qui contient 88 991 instances pour soutenir des recherches et développements supplémentaires, étendant l'actuel focus sur le raisonnement mathématique à diverses disciplines et domaines. De plus, nous proposons un vérificateur multidisciplinaire basé sur le processus (c'est-à-dire BMMR-Verifier) pour une évaluation précise et fine des chaînes de raisonnement. Des expérimentations approfondies sur 24 modèles révèlent que (i) même les modèles d'état de l'art (par exemple, o3 et Gemini-2.5-Pro) laissent une marge considérable sur BMMR-Eval ; (ii) les modèles de raisonnement montrent un biais disciplinaire et surpassent les LMMs uniquement dans certaines matières ; (iii) les modèles open source restent en retard par rapport à leurs homologues propriétaires ; et (iv) le fine-tuning sur BMMR-Train réduit cet écart. En outre, nous menons des analyses de chaînes de raisonnement à l'aide du BMMR-Verifier ainsi que d'autres études approfondies, mettant en lumière les défis actuels auxquels sont confrontés les LMMs dans le raisonnement multidisciplinaire. Nous publierons les données, espérant que notre travail apportera des perspectives et des contributions à la communauté.