11일 전

KV-Edit: 정밀한 배경 보존을 위한 훈련 없이 가능한 이미지 편집

Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
KV-Edit: 정밀한 배경 보존을 위한 훈련 없이 가능한 이미지 편집
초록

이미지 편집 작업에서 배경 일관성은 여전히 중요한 도전 과제로 남아 있다. 기존 연구들이 광범위하게 발전해 왔음에도 불구하고, 원본 이미지와의 유사성 유지와 목표에 부합하는 콘텐츠 생성 사이에는 여전히 상충 관계가 존재한다. 본 연구에서는 DiT(Diffusion Transformer)에서 KV 캐시를 활용하여 배경 일관성을 유지하는 훈련이 필요 없는 새로운 접근법인 KV-Edit을 제안한다. 이 방법은 배경 토큰을 재생성하는 대신 보존함으로써 복잡한 메커니즘이나 비용이 큰 훈련 없이 사용자 지정 영역 내에서 배경과 자연스럽게 통합된 새로운 콘텐츠를 생성할 수 있다. 또한 편집 과정 중 KV 캐시의 메모리 사용량을 분석하고, 훈련 없이도 공간 복잡도를 O(1)로 최적화하는 방법을 제안한다. 제안된 접근법은 추가 훈련 없이 어떠한 DiT 기반 생성 모델과도 호환 가능하다. 실험 결과, KV-Edit은 기존 방법들보다 배경 일관성과 이미지 품질 측면에서 뚜렷한 우수성을 보이며, 훈련 기반 방법을 초월하는 성능을 기록하였다. 프로젝트 웹페이지는 다음과 같다: https://xilluill.github.io/projectpages/KV-Edit

KV-Edit: 정밀한 배경 보존을 위한 훈련 없이 가능한 이미지 편집 | 최신 연구 논문 | HyperAI초신경