Cheng Liu Yiren Song Haofan Wang Mike Zheng Shou

要約
拡散モデル(diffusion models)の最近の進展により、画像生成および編集の性能は著しく向上しているが、透明度を有するアルファチャンネルを備えたレイヤード型PSDファイルの生成や再構成は依然として極めて困難な課題である。本研究では、Fluxエコシステムに基づく統合型拡散フレームワークであるOmniPSDを提案する。OmniPSDは、コンテキスト内学習(in-context learning)を活用することで、テキストからPSDへの生成と、画像からPSDへの分解の両方を実現する。テキストからPSDへの生成においては、複数のターゲットレイヤーを単一のキャンバス上に空間的に配置し、空間的アテンションを用いてそれらの構成関係を学習することで、意味的に整合性があり階層構造を持つレイヤーを生成する。画像からPSDへの分解においては、反復的なコンテキスト内編集を実行し、テキスト情報および前景成分を段階的に抽出・削除することで、単一のフラット化された画像から編集可能なPSDレイヤーを再構成する。透明度を保持しつつ構造学習に影響を与えないようにするため、RGBA-VAEを補助表現モジュールとして採用している。新たに構築したRGBAレイヤー型データセットを用いた広範な実験により、OmniPSDが高忠実度の生成、構造的一貫性、透明度認識の面で優れた性能を達成することが確認された。本研究は、拡散トランスフォーマーを用いたレイヤードデザインの生成と分解のための新しいパラダイムを提示している。