4日前
訓練不要なテキスト誘導型カラーディターリング手法:マルチモーダル拡散トランスフォーマーを用いた手法
Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-Yeung Shum

要約
画像および動画におけるテキスト誘導型色の編集は、アルベド、光源色、環境照明といった色属性を細かい粒度で操作しつつ、幾何学的形状、物質特性、光と物質の相互作用において物理的な整合性を維持する必要がある、基本的ではあるが未解決の課題である。既存のトレーニング不要型手法は、編集タスクに対して広範な適用性を有するが、正確な色制御が困難であり、編集領域および非編集領域において視覚的な不整合を引き起こす傾向がある。本研究では、現代のマルチモーダル拡散変換器(MM-DiT)のアテンション機構を活用したトレーニング不要型色編集手法「ColorCtrl」を提案する。本手法は、アテンションマップおよび値トークン(value tokens)をターゲットにした操作により、構造と色を分離し、正確かつ一貫性のある色編集を実現するとともに、単語レベルでの属性強度制御を可能にする。本手法は、プロンプトによって指定された意図した領域のみを変更し、関係のない領域は一切改変しない。SD3およびFLUX.1-devを用いた広範な実験により、ColorCtrlが既存のトレーニング不要型手法を上回り、編集品質および一貫性において最先端の性能を達成することが示された。さらに、FLUX.1 Kontext MaxやGPT-4o Image Generationといった強力な商用モデルと比較しても、一貫性において優れた性能を発揮している。CogVideoXのような動画モデルへの拡張においても、時間的整合性および編集の安定性の観点で特に顕著な優位性を示している。最後に、Step1X-EditやFLUX.1 Kontext devといった指示ベースの編集拡散モデルにも一般化可能であり、本手法の汎用性をさらに裏付けている。