2ヶ月前
自己整合訓練を用いて、小さな多モーダル推論モデルの性能を大規模モデルに匹敵させる方法の強化
Cheng Tan; Jingxuan Wei; Zhangyang Gao; Linzhuang Sun; Siyuan Li; Ruifeng Guo; Bihui Yu; Stan Z. Li

要約
多モーダル推論は、モデルが複数のモーダルを跨いで質問に答えるために必要な課題であり、その難易度は高いです。既存のアプローチでは、言語と視覚のモーダルを二段階推論フレームワークに組み込むことで進展が見られ、理由生成と回答推論を分離しています。しかし、これらのアプローチはしばしば生成された理由の品質不足により効果が十分でないことがあります。本研究では、モデル推論における理由の重要性を探ります。完全に正確な理由が提供される場合、モデルの精度が大幅に向上することが観察され、高品質な理由生成の必要性が強調されます。この観察に基づき、私たちはMC-CoT(Multi-Choice Chain-of-Thought)という自己一貫性訓練戦略を提案します。この戦略は複数の理由と回答を生成し、投票プロセスを通じて最も正確なものを選択します。このアプローチは生成された理由の品質を向上させるだけでなく、より正確で堅牢な回答にもつながります。広範な実験を通じて、私たちのアプローチが様々なベンチマークにおいてモデル性能を大幅に改善することを示しています。特に注目に値するのは、提案したアプローチを装備した小さなベースモデルでも大きなモデルと同等の結果を得られる点で、これは私たちのアプローチが多モーダル推論における理由の力を活用する可能性を示しています。コードは https://github.com/chengtan9907/mc-cot で利用可能です。