2ヶ月前

多モーダル数学的推論の測定:MATH-Visionデータセットを使用して

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li
多モーダル数学的推論の測定:MATH-Visionデータセットを使用して
要約

最近の大型マルチモーダルモデル(LMM)の進歩は、視覚的な文脈における数学的推論において有望な結果を示しており、既存のベンチマークであるMathVistaなどで人間レベルの性能に近づいています。しかし、これらのベンチマークがカバーする問題の多様性や主題の広範囲さには著しい制限があることが観察されています。この課題に対処するために、私たちはMATH-Vision(MATH-V)データセットを提示します。これは、実際の数学コンテストから収集された3,040件の高品質な視覚的な文脈を持つ数学問題を厳選して構成したものです。16の異なる数学分野を網羅し、5つの難易度レベルで分類されている当データセットは、LMMの数学的推論能力を評価するための包括的かつ多様な課題群を提供します。広範な実験を通じて、現在のLMMと人間の性能との間に顕著なギャップがあることを明らかにしました。これにより、LMMにおけるさらなる進歩が必要であることが強調されます。さらに、詳細な分類によりLMMの徹底的な誤り分析が可能となり、今後の研究開発に貴重な洞察を提供します。本プロジェクトはhttps://mathvision-cuhk.github.io で利用可能です。