9日前
画像内における主体の再定位
Yikai Wang, Chenjie Cao, Ke Fan, Qiaole Dong, Yifan Li, Xiangyang Xue, Yanwei Fu

要約
現在の画像操作は、主に静的な操作に焦点を当てており、画像内の特定領域を置き換えることや、全体的なスタイルを変更することなどが含まれる。本論文では、新たな動的画像操作タスクである「被写体の再配置(subject repositioning)」を提案する。このタスクは、ユーザーが指定した被写体を目的の位置に移動しつつ、画像の忠実性(fidelity)を維持することを目的とする。本研究では、被写体再配置の基本的なサブタスク—再配置によって生じる空洞の補填、被写体の一部が隠蔽された領域の再構成、および周囲の領域と調和するように被写体を融合する—が、一元化されたプロンプト誘導型の画像補填(inpainting)タスクとして効果的に再定式化可能であることを明らかにした。この結果、本研究で提案するタスク逆転(task inversion)技術により学習された多様なタスクプロンプトを用いて、単一の拡散生成モデル(diffusion generative model)でこれらのサブタスクを統合的に処理できるようになった。さらに、前処理および後処理技術を統合することで、被写体再配置の品質をさらに向上させた。これらの要素を統合したものが、本研究のSEgment-gEnerate-and-bLEnd(SEELE)フレームワークである。SEELEの被写体再配置における有効性を検証するため、実世界の被写体再配置データセット「ReS」を構築した。ReS上で得られた実験結果は、SEELEの高い性能を示している。コードおよびReSデータセットは、https://yikai-wang.github.io/seele/ にて公開されている。