Command Palette
Search for a command to run...
Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

要約
多モーダル大規模言語モデルは、強力な推論能力を要するさまざまな実用的応用が存在する。近年の進展にもかかわらず、これらのモデルは複雑な幾何学的問題を解くことに依然として困難を抱えている。その主な要因は、幾何学的画像を正確に理解するための高品質な画像-テキストペアデータセットの不足にある。さらに、多くのテンプレートベースのデータ合成パイプラインは、定義されたテンプレートの範囲外の質問には一般化しにくいという課題を抱えている。本研究では、データ生成パイプラインに検証可能な報酬を用いた強化学習(RLVR)の補完的プロセスを導入することで、このギャップを埋めることを目指す。50種類の基本的な幾何学的関係から合成された幾何学的画像に対して、RLVRを活用してキャプションを精緻化し、数学的問題解決タスクから得られる報酬信号を用いることで、本パイプラインは幾何学的問題解決の核心的な特徴を効果的に捉えることに成功した。これにより、タスクの一般化性能が向上し、有意義な性能向上が達成された。さらに、分布外(out-of-distribution)のシナリオにおいても、生成されたデータセットは多モーダル大規模言語モデルの一般化推論能力を強化し、MathVistaおよびMathVerseの非幾何学的入力画像を用いた統計、算術、代数、数値計算タスクにおいて2.8%~4.8%の精度向上を達成した。また、MMMUのアート、デザイン、技術、工学系タスクにおいても2.4%~3.9%の改善が見られた。