4日前

MultiEdit:多様で困難なタスクにおける指示に基づく画像編集の進展

Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, et al
MultiEdit:多様で困難なタスクにおける指示に基づく画像編集の進展
要約

現在の指示に基づく画像編集(IBIE)手法は、編集タスクの種類やデータセット内のサンプル数が限られているため、困難な編集タスクに対しては課題を抱えている。さらに、従来のデータセット構築手法では、ノイズを含む画像-キャプションペアが頻発する傾向があり、これによりモデルにバイアスが生じ、複雑な編集シナリオにおけるモデルの性能を制限する可能性がある。こうした課題を解決するため、本研究では、107,000件を超える高品質な画像編集サンプルを含む包括的なデータセット「MultiEdit」を提案する。このデータセットは、18種類のスタイル変換を除く非スタイル変換編集タイプと、38種類のスタイル変換操作を組み合わせることで、人物参照編集や画像内テキスト編集といった複雑な意味的操作から高度なスタイル変換まで、幅広い編集タスク(合計6種類)をカバーしている。また、視覚に適応した編集指示の生成と高忠実度の編集画像の生成をそれぞれ別々に担当する2つの多モーダル大規模言語モデル(MLLM)を用いた、新規のデータセット構築パイプラインを採用している。広範な実験により、本研究で提案するMultiEdit-Testベンチマークにおいて、基礎となるオープンソースモデルをMultiEdit-Trainセットで微調整することで、高度な編集タスクに対するモデル性能が顕著に向上することが示された。同時に、従来の標準的な編集ベンチマークにおける性能も効果的に維持している。本研究では、MultiEditがより多様かつ困難なIBIE能力の研究を進める上で貴重なリソースとなると確信している。本データセットは、以下のURLから公開されている。