4日前

MultiRef:複数の視覚的参照を用いた制御可能な画像生成

Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
MultiRef:複数の視覚的参照を用いた制御可能な画像生成
要約

ビジュアルデザイナーは、自然に多様な視覚的参照からインスピレーションを得ており、さまざまな要素や美的原理を組み合わせてアートワークを創出する。しかし、現在の画像生成フレームワークは、主に単一の入力源――テキストプロンプトまたは単一の参照画像――に依存している。本論文では、複数の視覚的参照を用いた制御可能な画像生成というタスクに焦点を当てる。我々は、複数の参照画像から視覚的コンテンツを統合する必要がある、合成データ990件と実世界データ1,000件を含む厳密な評価フレームワーク「MultiRef-bench」を提案する。合成データは、我々が開発したデータエンジン「RefBlend」を用いて合成生成され、10種類の参照タイプと33種類の参照組み合わせを備える。RefBlendを基盤として、さらなる研究を促進するため、高品質な画像38,000枚を含むデータセット「MultiRef」を構築した。3つのインタリーブド画像-テキストモデル(OmniGen、ACE、Show-o)および6つのエージェント型フレームワーク(ChatDiTやLLM + SDなど)を対象とした実験の結果、最新のモデルですら複数参照条件付き生成において困難を抱えていることが明らかになった。最も優れたモデルであるOmniGenでも、合成データでは平均66.6%、実世界データでは平均79.0%の精度にとどまり、ゴールデンアンサー(正解)と比較して依然として大きな差が存在した。これらの結果は、複数の視覚的インスピレーション源を効果的に統合できる、より柔軟で人間らしい創造的ツールの開発に向けた貴重な指針を提供するものである。本データセットは公開されており、以下のURLから利用可能である:https://multiref.github.io/。