Command Palette
Search for a command to run...
Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

초록
효율적인 크로스모달 모델링의 부재로 인해 기존의 오픈소스 음성-영상 생성 방법들은 종종 입술 동기화가 저하되거나 의미적 일관성이 부족한 문제가 발생한다. 이러한 단점을 완화하기 위해 우리는 음성과 영상의 공동 생성을 위한 통합적 프레임워크인 UniAVGen을 제안한다. UniAVGen은 이중 브랜치 공동 합성 아키텍처를 기반으로 하며, 두 개의 병렬 Diffusion Transformer(DiT)를 활용하여 일관된 크로스모달 잠재 공간을 구축한다. 이 프레임워크의 핵심은 비대칭적 크로스모달 상호작용 메커니즘으로, 양방향적이고 시간적으로 정렬된 크로스 어텐션을 가능하게 하여 정밀한 시공간 동기화와 의미적 일관성을 보장한다. 더불어, 이 크로스모달 상호작용은 얼굴 인식 기반 조절 모듈(Face-Aware Modulation module)을 통해 보강되며, 이 모듈은 상호작용 과정에서 주목할 만한 영역을 동적으로 우선순위화한다. 생성 품질을 추론 과정에서 더욱 향상시키기 위해, 우리는 모달리티 인식 기반의 분류기 없는 안내(Classifier-Free Guidance) 전략을 도입하여 크로스모달 상관 신호를 명시적으로 강화한다. 특히, UniAVGen의 견고한 공동 합성 설계 덕분에 하나의 모델 내에서 핵심 음성-영상 작업들을 원활하게 통합할 수 있으며, 공동 음성-영상 생성 및 연속 생성, 영상-음성 더빙, 음성 주도의 영상 생성 등이 가능하다. 광범위한 실험을 통해, 훈련 샘플 수가 훨씬 적은 경우(130만 대비 3,010만)에도 UniAVGen이 음성-영상 동기화, 음색 일관성, 감정 일관성 측면에서 전반적으로 우수한 성능을 보임을 입증하였다.