HyperAI초신경
10일 전

CSD-VAR: 시각적 자기회귀 모델에서의 콘텐츠-스타일 분해

Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen
CSD-VAR: 시각적 자기회귀 모델에서의 콘텐츠-스타일 분해
초록

단일 이미지에서 내용과 스타일을 분리하는 기술, 즉 내용-스타일 분해(Content-Style Decomposition, CSD)는 추출된 내용의 재맥락화와 추출된 스타일의 스타일화를 가능하게 하여 시각적 합성에서 더 큰 창의적인 유연성을 제공합니다. 최근 개인화 방법들은 명시적인 내용 스타일의 분해를 탐구하였지만, 여전히 확산 모델에 맞춰져 있습니다. 한편, 다음 단계 예측 패러다임을 사용하는 시각적 자기회귀 모델링(Visual Autoregressive Modeling, VAR)은 확산 모델과 비슷한 성능을 달성하면서 유망한 대안으로 부상하고 있습니다. 본 논문에서는 CSD를 위한 생성 프레임워크로서 VAR을 탐구하며, 그 스케일별 생성 과정을 활용하여 개선된 분리를 실현하기 위해 노력합니다. 이를 위해 우리는 세 가지 주요 혁신을 도입한 새로운 방법인 CSD-VAR를 제안합니다: (1) 콘텐츠와 스타일 표현이 각각의 스케일에 맞게 정렬되도록 하는 스케일 인식 교차 최적화 전략, (2) 콘텐츠 누수를 줄이기 위한 SVD(Singular Value Decomposition)-기반 수정 방법, (3) 콘텐츠 동일성 보존을 강화하는 증강 키-밸류(K-V) 메모리. 이 작업을 벤치마킹하기 위해, 다양한 주제가 여러 예술적 스타일로 렌더링된 CSD-100 데이터셋을 소개합니다. 실험 결과, CSD-VAR는 이전 접근법들을 능가하며 우수한 콘텐츠 보존과 스타일화 충실도를 달성하였습니다.