高品質データセットと信頼性のある評価手法による 画像・テキスト連携生成
Yukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang
公開日: 6/16/2025

要約
最近の大型マルチモーダルモデル(LMMs)の進歩により、マルチモーダルな理解と生成が大幅に向上しました。しかし、これらのモデルは依然として画像とテキストを密接に組み合わせた出力の生成に苦戦しており、これは主に現在の訓練データセットの規模、品質、および指示の豊かさが限られているためです。この問題に対処するために、我々は自己評価による反復改善(Self-Evaluation with Iterative Refinement: SEIR)手法を使用して構築した大規模なマルチモーダルデータセット「InterSyn」を紹介します。InterSynは、複数回のやり取りで指示に基づいた対話を特徴とし、画像とテキストが密接に組み合わさった応答を提供します。これにより、豊富なオブジェクト多様性と厳密な自動品質改善が実現され、次世代の指示追従型LMMsの訓練に適しています。さらに、密接に組み合わさたマルチモーダル出力を評価できる信頼性のある評価ツールが不足している問題に対処するため、我々は4つの次元(テキスト内容、画像内容、画像品質、画像-テキストシナジー)で定量的にマルチモーダル出力を評価する自動評価モデル「SynJudge」を導入します。実験研究では、SEIR手法を使用することで精製プロセスがない場合よりもデータセットの品質が大幅に向上することが示されました。また、InterSynで訓練されたLMMsはすべての評価指標において一貫した性能向上を達成しており、InterSynがマルチモーダルシステムの発展に貢献することを確認しています。