5일 전
UniVerse-1: 전문가 통합을 통한 통합 음성-영상 생성
Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, et al

초록
우리는 동시에 조화로운 음성과 영상을 생성할 수 있는 통합형 모델인 UniVerse-1을 소개한다. 이 모델은 Veo-3과 유사한 구조를 지니고 있으며, 학습 효율성을 높이기 위해 초기부터의 학습을 회피하고, 전이된 전문가 모델(Experts)을 연결하는 '전문가 연결 기법(Stitching of Experts, SoE)'을 활용한다. 이 방법은 미리 학습된 영상 생성 및 음악 생성 전문가 모델의 대응되는 블록을 깊이 있게 융합함으로써, 각 모델의 기초적 능력을 극대화한다. 환경 음향과 발화 음성의 정확한 레이블링 및 영상 콘텐츠와의 시간적 정렬을 보장하기 위해, 학습 데이터를 실시간으로 처리하고 학습 과정 중에 레이블을 생성하는 온라인 레이블링 파이프라인을 개발하였다. 이 전략은 텍스트 기반 레이블의 시간적 불일치로 인한 성능 저하 문제를 효과적으로 회피한다. 이러한 기술들의 상호보완적 작용을 통해, 약 7,600시간의 오디오-비디오 데이터에 대해 피니트uning을 수행한 본 모델은 환경 음향 생성 시 우수한 오디오-비주얼 조화를, 발화 생성 시 강한 시간적 일치도를 달성한다. 제안된 방법의 체계적인 평가를 위해, 우리는 새로운 벤치마크 데이터셋인 Verse-Bench를 제안한다. Veo3과 같은 최첨단 모델들과의 성능 격차를 줄이기 위해 오디오-비디오 생성 분야의 연구를 촉진하고자, 본 모델 및 코드를 공개한다. 본 연구 기여가 더 넓은 연구 공동체에 기여하기를 기대한다. 프로젝트 페이지: this https URL