학습 없이 텍스트 지도를 받는 색상 편집을 위한 다중 모달 확산 트랜스포머

이미지 및 영상에서 텍스트 지도형 색상 편집은 색상 속성(알베도, 조명원 색상, 주변 조명 등)을 미세하게 조작하면서 기하학적 구조, 재질 특성, 빛-물질 상호작용 측면에서 물리적 일관성을 유지해야 하는 핵심적이지만 해결되지 않은 문제이다. 기존의 학습 없이 작동하는 방법들은 다양한 편집 작업에 광범위하게 적용 가능하지만, 정밀한 색상 제어가 어렵고 편집된 영역뿐 아니라 비편집 영역에서도 시각적 일관성 결여를 초래하는 경향이 있다. 본 연구에서는 현대의 다모달 확산 변환기(Multi-Modal Diffusion Transformers, MM-DiT)의 주의 메커니즘을 활용한 학습 없이 작동하는 색상 편집 기법인 ColorCtrl을 제안한다. 본 방법은 주의 맵과 값 토큰(attention maps 및 value tokens)에 대한 표적 조작을 통해 구조와 색상을 분리하고, 정확하고 일관된 색상 편집을 가능하게 하며, 단어 수준에서 속성 강도를 제어할 수 있다. 제안된 방법은 사용자 프롬프트에 의해 지정된 목적 영역만 수정하며, 관련 없는 영역은 그대로 유지한다. SD3 및 FLUX.1-dev에 대한 광범위한 실험을 통해 ColorCtrl이 기존의 학습 없이 작동하는 접근법보다 우수한 성능을 보이며, 편집 품질과 일관성 측면에서 최신 기술 수준을 달성함을 입증하였다. 또한, FLUX.1 Kontext Max 및 GPT-4o 이미지 생성과 같은 강력한 상용 모델보다도 일관성 측면에서 뛰어난 성능을 보였다. CogVideoX와 같은 영상 모델에 확장했을 때에도 본 방법은 시간적 일관성과 편집 안정성 측면에서 더욱 두드러진 우위를 보였다. 마지막으로, Step1X-Edit 및 FLUX.1 Kontext dev와 같은 지시 기반 편집 확산 모델에도 일반화 가능함을 보여, 본 방법의 유연성과 다용도성을 입증하였다.