11日前
視覚的ファインチューニング向け高品質データのゲーム化クラウドソーシング
Shashank Yadav, Rohan Tomar, Garvit Jain, Chirag Ahooja, Shubham Chaudhary, Charles Elkan

要約
本稿では、大規模なマルチモーダルモデルの視覚的インストラクションチューニングに向けた高品質なデータをクラウドソーシングするためのフレームワーク「Gamified Adversarial Prompting(GAP)」を紹介する。GAPは、データ収集プロセスを魅力的なゲーム形式に変換し、モデルの知識的ギャップに焦点を当てた細粒度かつ困難な質問・回答をプレイヤーに提供するインセンティブを提供する。本研究の主な貢献は以下の3点である:(1)モデルの知識的弱点を直接的かつ明確に突く質問・回答ペアを人間から収集するアプローチの提案、(2)高品質な提出物を促進するように設計されたプレイヤー評価および報酬付与メカニズムの開発、(3)数週間の短期間で5万以上の参加者からデータを収集可能なスケーラブルなゲーム化プラットフォームの実装。GAPの実装により、小型マルチモーダルモデルであるMiniCPM-Llama3-V-2.5-8Bの精度が著しく向上し、当研究のデータセット上でGPTスコアが0.147から0.477に改善され、はるかに大きなGPT-4Vのベンチマークに近づいた。さらに、MiniCPM-Llama3-V-2.5-8Bを用いて生成されたデータが、他のベンチマークでもモデルの性能向上をもたらすことを実証し、モデル間の一般化効果(クロスモデル効果)も示した。具体的には、同一のデータがQWEN2-VL-2BおよびQWEN2-VL-7Bの複数のベンチマークにおける性能を向上させた。