10일 전
대체자: 영상 생성을 위한 경량형 및 즉시 사용형 정체성 제어
Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li

초록
사용자 지정된 정체성과 일치하는 고해상도 인간 영상을 생성하는 것은 생성형 AI 분야에서 중요하면서도 도전적인 과제이다. 기존의 방법들은 과도한 수의 학습 파라미터에 의존하는 경우가 많으며, 다른 AIGC 도구와의 호환성도 부족한 편이다. 본 논문에서는 영상 생성 과정에서 정체성을 유지하기 위한 경량화되고 즉시 사용 가능한 프레임워크인 Stand-In을 제안한다. 구체적으로, 사전 학습된 영상 생성 모델에 조건부 이미지 브랜치를 도입한다. 정체성 제어는 조건부 위치 매핑을 갖는 제한된 자기주의(conditional self-attention)를 통해 달성되며, 단지 2,000개의 페어만으로도 빠르게 학습 가능하다. 전체 모델의 파라미터의 약 ∼1%만 추가하여 학습함에도 불구하고, 본 프레임워크는 영상 품질과 정체성 유지 측면에서 뛰어난 성능을 달성하며, 다른 전파라미터 학습 방법들을 초월한다. 또한 본 프레임워크는 주제 기반 영상 생성, 자세 참조 영상 생성, 스타일화, 얼굴 교체 등 다양한 작업에 원활하게 통합될 수 있다.