2달 전

다중 모드 공동 학습을 통제하여 고품질 비디오-오디오 합성을 실현하기

Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
다중 모드 공동 학습을 통제하여 고품질 비디오-오디오 합성을 실현하기
초록

우리는 비디오와 선택적인 텍스트 조건을 주어 고품질且동기화된 오디오를 생성하기 위한 새로운 다중모달 공동 학습 프레임워크인 MMAudio를 제안합니다. 단일 모달 학습이 (제한된) 비디오 데이터만을 기반으로 하는 것과 달리, MMAudio는 더 대규모로 쉽게 접근할 수 있는 텍스트-오디오 데이터와 함께 공동 학습되어 의미적으로 일치하는 고품질의 오디오 샘플을 생성하도록 학습됩니다. 또한, 프레임 단위에서 비디오 조건과 오디오 잠재 변수를 맞추는 조건부 동기화 모듈을 통해 오디오-비디오 동기화를 개선합니다. MMAudio는 유량 매칭 목적함수로 학습되며, 공개된 모델들 중에서 오디오 품질, 의미적 일치성 및 오디오-비디오 동기화 측면에서 새로운 최고 성능을 달성하며, 추론 시간이 짧고(8초 클립 생성에 1.23초), 파라미터가 1억 5천 7백만 개에 불과합니다. 또한 MMAudio는 텍스트-오디오 생성에서도 놀랍게도 경쟁력 있는 성능을 보여주어, 공동 학습이 단일 모달 성능에 방해되지 않는다는 것을 입증하였습니다. 코드와 데모는 다음 링크에서 확인 가능합니다: https://hkchengrex.github.io/MMAudio注:在“高品质量且”这部分,由于韩语中没有直接对应的连词来同时表达“高质量”和“同步”的关系,因此将其拆分为两个独立的形容词进行描述。此外,“parameters”翻译为“파라미터”,这是韩国科技界常用的术语。

다중 모드 공동 학습을 통제하여 고품질 비디오-오디오 합성을 실현하기 | 최신 연구 논문 | HyperAI초신경