HyperAIHyperAI

Command Palette

Search for a command to run...

MultiRef:複数の視覚的参照を用いた制御可能な画像生成

Ruoxi Chen Dongping Chen Siyuan Wu Sinan Wang Shiyun Lang Petr Sushko Gaoyang Jiang Yao Wan Ranjay Krishna

概要

ビジュアルデザイナーは、自然に多様な視覚的参照からインスピレーションを得ており、さまざまな要素や美的原理を組み合わせてアートワークを創出する。しかし、現在の画像生成フレームワークは、主に単一の入力源――テキストプロンプトまたは単一の参照画像――に依存している。本論文では、複数の視覚的参照を用いた制御可能な画像生成というタスクに焦点を当てる。我々は、複数の参照画像から視覚的コンテンツを統合する必要がある、合成データ990件と実世界データ1,000件を含む厳密な評価フレームワーク「MultiRef-bench」を提案する。合成データは、我々が開発したデータエンジン「RefBlend」を用いて合成生成され、10種類の参照タイプと33種類の参照組み合わせを備える。RefBlendを基盤として、さらなる研究を促進するため、高品質な画像38,000枚を含むデータセット「MultiRef」を構築した。3つのインタリーブド画像-テキストモデル(OmniGen、ACE、Show-o)および6つのエージェント型フレームワーク(ChatDiTやLLM + SDなど)を対象とした実験の結果、最新のモデルですら複数参照条件付き生成において困難を抱えていることが明らかになった。最も優れたモデルであるOmniGenでも、合成データでは平均66.6%、実世界データでは平均79.0%の精度にとどまり、ゴールデンアンサー(正解)と比較して依然として大きな差が存在した。これらの結果は、複数の視覚的インスピレーション源を効果的に統合できる、より柔軟で人間らしい創造的ツールの開発に向けた貴重な指針を提供するものである。本データセットは公開されており、以下のURLから利用可能である:https://multiref.github.io/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MultiRef:複数の視覚的参照を用いた制御可能な画像生成 | 記事 | HyperAI超神経