2달 전

Frieren: Rectified Flow Matching을 활용한 효율적인 비디오-오디오 생성 네트워크

Wang, Yongqi ; Guo, Wenxiang ; Huang, Rongjie ; Huang, Jiawei ; Wang, Zehan ; You, Fuming ; Li, Ruiqi ; Zhao, Zhou
Frieren: Rectified Flow Matching을 활용한 효율적인 비디오-오디오 생성 네트워크
초록

비디오-투-오디오(V2A) 생성은 무음 비디오에서 내용이 일치하는 오디오를 합성하는 것을 목표로 하며, 높은 생성 품질, 효율성 및 시각-청각 시간 동기화를 갖춘 V2A 모델을 구축하는 것은 여전히 어려운 과제입니다. 우리는 정류된 흐름 매칭을 기반으로 하는 V2A 모델인 Frieren을 제안합니다. Frieren은 노이즈에서 스펙트로그램 잠재 변수까지의 조건부 전송 벡터 필드를 직선 경로로 회귀하고 ODE를 해결하여 샘플링을 수행하며, 이는 오디오 품질 측면에서 자기회귀 및 점수 기반 모델을 능가합니다. 피드포워드 트랜스포머와 강력한 시간 동기화를 바탕으로 한 채널 수준의 크로스-모달 특성 융합을 사용한 비자기회귀 벡터 필드 추정기를 도입함으로써, 우리의 모델은 입력 비디오와 높은 동기화 상태를 유지하면서 오디오를 생성합니다. 또한 유도 벡터 필드를 활용한 재흐름과 단계적 증류 과정을 통해 우리의 모델은 몇 번의 샘플링 단계, 심지어 단 한 번의 샘플링 단계에서도 충분히 우수한 오디오를 생성할 수 있습니다. 실험 결과, Frieren은 VGGSound 데이터셋에서 생성 품질과 시간 동기화 모두 최고 수준의 성능을 달성하였으며, 시간 동기화 정확도는 97.22%에 달하고 강력한 확산 기반 기준모델 대비 인셉션 스코어에서 6.2% 개선되었습니다. 오디오 샘플은 http://frieren-v2a.github.io 에서 확인할 수 있습니다.

Frieren: Rectified Flow Matching을 활용한 효율적인 비디오-오디오 생성 네트워크 | 최신 연구 논문 | HyperAI초신경