웨이버: 웨이브를 통해 생생한 영상 생성하기

우리는 통합적인 이미지 및 비디오 생성을 위한 고성능 기반 모델인 Waver를 제안한다. Waver는 원본 해상도 720p에서 5~10초 길이의 비디오를 직접 생성할 수 있으며, 이후 이를 1080p로 업스케일링한다. 이 모델은 단일 통합 프레임워크 내에서 텍스트-비디오(T2V), 이미지-비디오(I2V), 텍스트-이미지(T2I) 생성을 동시에 지원한다. 모달리티 간의 정렬을 강화하고 학습 수렴 속도를 가속화하기 위해 하이브리드 스트림 DiT 아키텍처를 도입하였다. 학습 데이터의 품질을 보장하기 위해 포괄적인 데이터 정제 파이프라인을 구축하였으며, MLLM 기반의 비디오 품질 모델을 수동으로 주석 처리하고 훈련하여 최고 품질의 샘플만을 필터링하였다. 더불어, 고품질 비디오 생성을 지원하기 위해 훈련 및 추론에 대한 구체적인 조리법을 제공한다. 이러한 기여를 바탕으로 Waver는 복잡한 움직임을 정확히 포착하는 데 뛰어나며, 비디오 합성에서 우수한 운동 폭과 시간적 일관성을 달성한다. 특히, Artificial Analysis의 T2V 및 I2V 리더보드(2025년 7월 30일 10:00 GMT+8 기준)에서 상위 3위 내에 진입하여 기존 오픈소스 모델을 꾸준히 능가하며, 최첨단 상용 솔루션과 견줄 수 있거나 이를 뛰어넘는 성능을 보였다. 본 기술 보고서가 커뮤니티가 고품질 비디오 생성 모델을 보다 효율적으로 훈련하고 비디오 생성 기술의 발전을 가속화하는 데 기여하기를 기대한다. 공식 페이지: https://github.com/FoundationVision/Waver