9일 전

이미지 내에서 주체의 재정의

Yikai Wang, Chenjie Cao, Ke Fan, Qiaole Dong, Yifan Li, Xiangyang Xue, Yanwei Fu
이미지 내에서 주체의 재정의
초록

현재 이미지 조작 기술은 주로 이미지 내 특정 영역을 교체하거나 전체 스타일을 변경하는 정적 조작에 집중하고 있다. 본 논문에서는 새로운 동적 조작 과제인 ‘주체 재배치(subject repositioning)’를 제안한다. 이 과제는 사용자가 지정한 주체를 원하는 위치로 이동시키면서 이미지의 사실성(fidelity)을 유지하는 것을 목표로 한다. 우리의 연구는 주체 재배치의 핵심 하위 과제들—이동된 주체가 남긴 빈 공간을 채우는 것, 가려진 주체 부분을 재구성하는 것, 그리고 주체를 주변 영역과 자연스럽게 융합하는 것—을 통합된 프롬프트 유도형 인페인팅(prompt-guided inpainting) 과제로 효과적으로 재정의할 수 있음을 밝혀냈다. 따라서 본 연구에서는 제안한 ‘태스크 역전 기술(task inversion technique)’을 통해 학습된 다양한 작업 프롬프트를 사용하여 단일 확산 생성 모델(diffusion generative model)로 이러한 하위 과제들을 통합적으로 해결할 수 있다. 더불어, 주체 재배치의 품질을 향상시키기 위해 사전 처리 및 사후 처리 기법을 통합하였다. 이러한 구성 요소들이 결합되어 SEgment-gEnerate-and-bLEnd (SEELE) 프레임워크를 구성하게 되었다. SEELE의 주체 재배치 성능을 평가하기 위해 실제 환경에서의 주체 재배치 데이터셋인 ReS를 구축하였다. ReS에 대한 SEELE의 실험 결과는 본 방법의 효과성을 입증한다. 코드 및 ReS 데이터셋은 https://yikai-wang.github.io/seele/ 에서 공개되어 있다.