
本稿では、BMMR(大規模双言語多モーダル多分野推論データセット)を紹介します。このデータセットは、コミュニティが大規模多モーダルモデル(LMMs)の開発と評価を行うために設計されています。BMMRには、300のユネスコ定義科目にわたる11万件の大学レベルの問題が含まれており、選択肢形式、穴埋め形式、およびオープンエンド形式のQAなど、多様なフォーマットで構成されています。これらの問題は書籍、試験、クイズなどの印刷媒体やデジタル媒体から収集されました。すべてのデータは人間を介したキュレーションとスケーラブルなフレームワークにより整理・フィルタリングされ、各インスタンスには高品質な推論パスが付属しています。このデータセットは2つの部分に組織されています:BMMR-EvalとBMMR-Trainです。BMMR-Evalには20,458件の高品質なインスタンスが含まれおり、中国語と英語の両言語において複数の分野にわたるLMMsの知識と推論能力を包括的に評価するために使用されます。一方、BMMR-Trainには88,991件のインスタンスが含まれおり、さらなる研究と開発を支援し、現在までの数学的な推論への焦点を多様な分野やドメインへ拡張することを目指しています。さらに、我々はプロセスベースの多分野検証器(すなわちBMMR-Verifier)を提案します。これは推論パスに対する正確かつ詳細な評価を行うためのものです。24種類のモデルに対する広範囲な実験により以下のことが明らかになりました。(i) 既存の最先端モデル(例:o3およびGemini-2.5-Pro)でもBMMR-Evalにおいて大幅な向上余地がある;(ii) 推論モデルは分野バイアスを持ち、特定の科目でのみLMMsを上回っている;(iii) オープンソースモデルは依然として独自開発されたモデルに劣っている;(iv) BMMR-Trainでの微調整によりこのギャップが縮小される。また、BMMR-Verifierを使用して推論チェーン分析を行い、その他の深層研究も実施しました。これによりLMMsが現在直面している多分野推論における課題が明らかになりました。私たちはデータセットを公開する予定であり、本研究がコミュニティに対して洞察と貢献を提供できることを期待しています。