9日前

画像内における主体の再定位

Yikai Wang, Chenjie Cao, Ke Fan, Qiaole Dong, Yifan Li, Xiangyang Xue, Yanwei Fu

要約

現在の画像操作は、主に静的な操作に焦点を当てており、画像内の特定領域を置き換えることや、全体的なスタイルを変更することなどが含まれる。本論文では、新たな動的画像操作タスクである「被写体の再配置（subject repositioning）」を提案する。このタスクは、ユーザーが指定した被写体を目的の位置に移動しつつ、画像の忠実性（fidelity）を維持することを目的とする。本研究では、被写体再配置の基本的なサブタスク—再配置によって生じる空洞の補填、被写体の一部が隠蔽された領域の再構成、および周囲の領域と調和するように被写体を融合する—が、一元化されたプロンプト誘導型の画像補填（inpainting）タスクとして効果的に再定式化可能であることを明らかにした。この結果、本研究で提案するタスク逆転（task inversion）技術により学習された多様なタスクプロンプトを用いて、単一の拡散生成モデル（diffusion generative model）でこれらのサブタスクを統合的に処理できるようになった。さらに、前処理および後処理技術を統合することで、被写体再配置の品質をさらに向上させた。これらの要素を統合したものが、本研究のSEgment-gEnerate-and-bLEnd（SEELE）フレームワークである。SEELEの被写体再配置における有効性を検証するため、実世界の被写体再配置データセット「ReS」を構築した。ReS上で得られた実験結果は、SEELEの高い性能を示している。コードおよびReSデータセットは、https://yikai-wang.github.io/seele/ にて公開されている。