10日前

VisCodex:視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成

Lingjie Jiang, Shaohan Huang, Xun Wu, Yixia Li, Dongdong Zhang, Furu Wei
VisCodex:視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成
要約

マルチモーダル大規模言語モデル(MLLM)は、視覚情報とテキスト理解の統合において顕著な進展を遂げている。しかし、マルチモーダル入力からコードを生成する能力については依然として限界がある。本研究では、視覚モデルとコード生成用言語モデルを統合的に融合させることで、MLLMに強力なマルチモーダルコード生成能力を付与する統一型フレームワーク「VisCodex」を提案する。タスクベクトルに基づくモデル統合技術を活用することで、最先端のコード生成用大規模言語モデル(LLM)を強力な視覚・言語基盤モデルに統合しつつ、視覚理解能力および高度なコード生成スキルの両方を維持した。トレーニングおよび評価を支援するため、高品質なHTMLコード、チャート画像とコードのペア、画像拡張型StackOverflowの質問・回答、アルゴリズム問題を含む、合計59万8千件のサンプルからなる大規模かつ多様な「マルチモーダルコードデータセット(MCD)」を導入する。さらに、視覚情報豊富な現実世界のプログラミング課題を対象とし、テキストと視覚的文脈の両方に対する洗練された理解を要する、新規かつ挑戦的なベンチマーク「InfiBench-V」を提案する。広範な実験の結果、VisCodexはオープンソースMLLMの中で最先端の性能を達成し、GPT-4oをはじめとするプロプライエタリモデルに近づく結果を示した。これは、本研究で提案するモデル統合戦略および新規データセットの有効性を裏付けている。