
要約
我々は、マルチモーダル大規模言語モデルのリーバスパズル(画像を用いた言葉遊び)に対する性能を評価するための新しいベンチマークを提案する。このデータセットは、映画、作曲家、主要都市、料理など13のカテゴリを含む、333のオリジナルな画像ベースの言葉遊び例をカバーしている。このベンチマークで、提示された語句やフレーズを正しく特定するためには、モデルが画像認識と文字列操作を統合し、仮説検証、多段階推論、さらには人間の認知理解を組み合わせる能力が求められる。これにより、複雑かつマルチモーダルな能力評価が可能となる。我々の分析から、GPT-4oが他のすべてのモデルを大きく上回る性能を示すことが判明した。次いで、他社独自開発モデルがすべての評価対象モデルを上回った。しかし、最も優れたモデルでも最終的な正解率はわずか42%にとどまり、難易度の高いパズルでは正解率がたった7%まで低下する。これは、推論能力の大幅な向上が依然として必要であることを示している。さらに、モデルはほとんど常にパズルのすべての要素を理解できず、正解を後から説明する能力もほとんど持っていない。したがって、本ベンチマークは、マルチモーダル大規模言語モデルの知識および推論能力における主要な課題を特定するための有効なツールとなる。