2ヶ月前

ProVision: プログラムによる多モーダル言語モデルの視覚中心の指示データのスケーリング

Jieyu Zhang; Le Xue; Linxin Song; Jun Wang; Weikai Huang; Manli Shu; An Yan; Zixian Ma; Juan Carlos Niebles; Silvio Savarese; Caiming Xiong; Zeyuan Chen; Ranjay Krishna; Ran Xu
ProVision: プログラムによる多モーダル言語モデルの視覚中心の指示データのスケーリング
要約

多モーダルアプリケーションの普及に伴い、複雑な画像ベースの問い合わせを理解できる多モーダル言語モデルの訓練において、指示データが重要な役割を果たしています。既存の手法では、強力だが高コストな大規模言語モデル(LLMs)や多モーダル言語モデル(MLMs)を使用して指示データを生成しています。これらの手法は、しばしば幻覚現象、ライセンス問題に陥りやすく、生成プロセスの拡張と解釈が困難であることが課題となっています。本研究では、シーングラフを画像の記号表現として用い、人間が書いたプログラムによって視覚中心の指示データを系統的に合成するプログラム的なアプローチを提案します。当アプローチはデータ生成プロセスの解釈可能性と制御可能性を確保し、事実的正確さを維持しながら効率的に拡張できます。24種類の単一画像用指令生成器、14種類の複数画像用指令生成器、およびシーングラフ生成パイプラインを実装することで、ProVisionというスケーラブルで費用対効果が高いシステムを構築しました。このシステムは、任意の画像に対してオブジェクト、属性、関係性、深度などに関する多様な質問-回答ペアを生成します。Visual GenomeおよびDataCompデータセットに適用した結果、ProVision-10Mと呼ばれる1000万以上の指示データポイントを生成し、これらのデータをMLMsの事前学習段階と指令微調整段階で活用しました。指令微調整段階で採用された単一画像用指示データはCVBenchの2D分割では最大7%、3D分割では最大8%の改善をもたらし、QBench2, RealWorldQA, MMMUにおいても性能が3%向上しました。複数画像用指示データはMantis-Evalで8%の改善につながりました。xGen-MM-4Bの事前学習段階と微調整段階に当社のデータを取り入れることにより、11つのベンチマークにおける平均的な性能向上率が1.6%となりました。

ProVision: プログラムによる多モーダル言語モデルの視覚中心の指示データのスケーリング | 最新論文 | HyperAI超神経