HyperAI
vor 5 Tagen

BMMR: Ein umfangreiches bilingual multimodales multidisziplinäres Reasoning-Datensatz

Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
BMMR: Ein umfangreiches bilingual multimodales multidisziplinäres Reasoning-Datensatz
Abstract

In dieser Arbeit stellen wir BMMR vor, einen umfangreichen bilingualen, multimodalen und multidisziplinären Datensatz zur Entwicklung und Bewertung großer multimodaler Modelle (LMMs). BMMR umfasst 110.000 Fragen auf College-Niveau, die sich über 300 von der UNESCO definierte Fachgebiete erstrecken. Die Fragen sind in verschiedenen Formaten – Multiple-Choice, Lückenfüllaufgaben und offene Fragen – enthalten und stammen sowohl aus gedruckten als auch digitalen Medien wie Büchern, Prüfungen und Quizze. Alle Daten wurden durch ein menschenbasiertes und skalierbares Framework kuriert und gefiltert, wobei jeder Datensatz mit einem hochwertigen Schließungsverfahren verknüpft ist. Der Datensatz ist in zwei Teile gegliedert: BMMR-Eval, der 20.458 hochwertige Instanzen enthält, um das Wissen und die Schließungsfähigkeit von LMMs in mehreren Disziplinen sowohl im Chinesischen als auch im Englischen umfassend zu bewerten; und BMMR-Train, der 88.991 Instanzen beinhaltet, um weitere Forschung und Entwicklung zu unterstützen. Dies erweitert den aktuellen Fokus auf mathematische Schließung auf verschiedene Disziplinen und Bereiche.Darüber hinaus schlagen wir einen prozessbasierten multidisziplinären Verifizierer (d.h., BMMR-Verifier) vor, um die Schließungswege genauer und detailliert zu evaluieren. Umfangreiche Experimente mit 24 Modellen zeigen, dass (i) selbst state-of-the-art-Modelle (z.B., o3 und Gemini-2.5-Pro) bei BMMR-Eval erhebliche Verbesserungsmöglichkeiten bieten; (ii) Schließungsmodelle eine Disziplinenverzerrung aufweisen und LMMs nur in bestimmten Fachgebieten übertreffen; (iii) Open-Source-Modelle ihren proprietären Gegenstücken noch nachstehen; und (iv) das Feinjustieren anhand von BMMR-Train diesen Abstand verringert.Zusätzlich führen wir Analysen der Schließungsketten unter Verwendung des BMMR-Verifiers sowie andere tiefgreifende Studien durch, wobei wir die Herausforderungen aufdecken, denen LMMs bei multidisziplinärer Schließung gegenwärtig gegenüberstehen. Wir werden die Daten veröffentlichen und hoffen, dass unsere Arbeit Erkenntnisse und Beiträge für die Gemeinschaft liefert.