NeurIPS 2025에 선정된 지위안대학교, 베이징대학교, 베이징우정통신대학교는 오디오 디믹싱을 기반으로 정밀한 시청각 동기화를 구현하는 멀티스트림 제어 비디오 생성 프레임워크를 제안했습니다.

7달 전

텍스트와 비교했을 때, 오디오는 본질적으로 연속적인 시간 구조와 풍부한 동적 정보를 지니고 있어 비디오 생성에 있어 더욱 정밀한 시간 제어를 가능하게 합니다. 따라서 비디오 생성 모델의 발전과 함께 오디오 기반 비디오 생성은 멀티모달 생성 분야에서 중요한 연구 방향으로 자리 잡았습니다. 현재 관련 연구는 화자 애니메이션, 음악 기반 비디오, 시청각 동기화 생성 등 다양한 시나리오를 포괄하고 있지만, 복잡한 비디오 콘텐츠에서 안정적이고 정확한 시청각 정렬을 구현하는 것은 여전히 매우 어려운 과제입니다.

기존 방법의 주요 한계는 오디오 신호 모델링 방식에서 비롯됩니다. 대부분의 모델은 입력 오디오를 전체적인 조건으로 생성 과정에 도입하여 음성, 음향 효과, 음악과 같은 다양한 오디오 구성 요소의 기능적 역할을 시각적 수준에서 구분하지 못합니다. 이러한 접근 방식은 모델링 복잡성을 어느 정도 줄여주기는 합니다.하지만 이로 인해 오디오와 비주얼 간의 대응 관계가 모호해져 립싱크, 이벤트 타이밍 정렬, 전반적인 시각적 분위기 제어 등의 요구 사항을 동시에 충족하기 어려워집니다.

이 문제를 해결하려면베이징 인공지능 연구원, 베이징 대학, 베이징 우정통신 대학은 오디오 디믹싱 기반의 시청각 동기화 비디오 생성 프레임워크를 공동으로 제안했습니다.입력 오디오는 음성, 효과음, 음악의 세 가지 오디오 트랙으로 분리되며, 각 트랙은 서로 다른 수준의 시각적 생성에 사용됩니다. 이 프레임워크는 멀티 스트림 시간 제어 네트워크와 이에 상응하는 데이터셋 및 학습 전략을 통해 시간적 수준과 전체적인 수준 모두에서 더욱 명확한 시청각적 대응을 구현합니다. 실험 데이터는 이 방법이 비디오 품질, 시청각적 정렬, 립싱크에서 안정적인 개선을 보여주며, 복잡한 비디오 생성 작업에서 오디오 분리 및 멀티 스트림 제어의 효과를 입증함을 보여줍니다.

"다중 스트림 시간 제어를 통한 오디오 동기화 비디오 생성"이라는 제목의 관련 연구 결과가 NeurIPS 2025에 선정되었습니다.

서류 주소:

https://arxiv.org/abs/2506.08003

연구 하이라이트:

* 본 연구에서는 오디오 동기화 비디오 생성을 위한 5개의 중첩된 하위 집합으로 구성된 DEMIX 데이터셋을 구축하고, 시청각적 관계 학습을 위한 다단계 훈련 전략을 제안합니다.

* 음성을 음성, 효과음, 음악의 세 가지 트랙으로 분리하는 MTV 프레임워크를 제안합니다. 이 트랙들은 입술 움직임, 이벤트 타이밍, 전반적인 시각적 분위기와 같은 다양한 시각적 요소를 제어하여 더욱 정밀한 의미 제어를 가능하게 합니다.

* 동일한 생성 프레임워크 내에서 로컬 시간 간격의 정밀 동기화와 전역 스타일 조정을 동시에 처리할 수 있는 다중 스트림 시간 제어 네트워크(MST-ControlNet)를 설계하여, 시간 척도 상에서 서로 다른 오디오 구성 요소에 대한 차별화된 제어를 구조적으로 지원합니다.

다기능 발전 능력

MTV는 캐릭터 중심의 스토리텔링, 다양한 캐릭터 간의 상호작용, 소리에 기반한 이벤트, 음악으로 조성되는 분위기, 카메라 움직임 등 다기능적인 콘텐츠 생성 능력을 갖추고 있습니다.

DEMIX 데이터셋은 단계별 학습을 가능하게 하기 위해 분리된 트랙 주석을 도입했습니다.

본 논문에서는 먼저 상세한 필터링 과정을 통해 DEMIX 데이터셋을 얻습니다. 필터링된 DEMIX 데이터는 다음과 같이 다섯 개의 겹치는 부분집합으로 구조화됩니다.기본 얼굴 특징, 1인 효과, 다인 효과, 이벤트 음향 효과 및 환경 분위기. 서로 겹치는 다섯 가지 하위 집합을 기반으로 합니다.본 논문에서는 다단계 훈련 전략을 소개합니다.이 모델은 점진적으로 확장됩니다. 먼저 기본적인 얼굴 데이터셋을 사용하여 입술 움직임을 학습하고, 그 다음에는 한 사람 데이터셋을 사용하여 사람의 자세, 장면의 모습, 카메라 움직임을 학습합니다. 이어서 여러 사람이 등장하는 복잡한 장면을 처리하기 위해 다인 데이터셋을 사용하여 학습합니다. 다음으로는 이벤트 타이밍에 초점을 맞추고, 이벤트 음향 효과 데이터셋을 사용하여 대상 이해 범위를 사람에서 사물로 확장합니다. 마지막으로 주변 분위기 데이터셋을 사용하여 시각적 감정 표현을 개선합니다.

다중 스트림 타이밍 제어 메커니즘을 기반으로 정밀한 시청각 매핑과 정확한 시간 정렬이 구현됩니다.

이 문서에서는 오디오를 음성, 음향 효과 및 음악의 세 가지 명확한 제어 트랙으로 구분합니다.본 논문에서는 MTV 프레임워크가 입술 움직임, 이벤트 타이밍, 시각적 감정을 정밀하게 제어하여 모호한 매핑 문제를 해결할 수 있도록 하는 다중 스트림 시간 제어 네트워크를 제안합니다. 이 네트워크는 음성, 효과음, 음악 트랙을 명확하게 분리하여 정확한 시간 정렬을 구현합니다. 다양한 작업에 MTV 프레임워크를 적용하기 위해 텍스트 설명을 구성하는 템플릿을 제안합니다. 이 템플릿은 "두 사람의 대화"와 같이 참여자 수를 나타내는 문장으로 시작합니다. 그다음, 각 참여자를 고유 식별자(Person1, Person2)로 나열하고 간략하게 외모를 설명합니다. 참여자 나열 후에는 현재 말하는 사람을 명시적으로 식별합니다. 마지막으로 장면 전체를 설명하는 문장이 포함됩니다.

간격 특징 주입

음성 및 음향 효과 기능에 관하여본 논문은 입술 움직임과 이벤트 타이밍을 정확하게 제어하기 위한 인터벌 플로우를 설계합니다.각 오디오 트랙의 특징은 인터벌 인터랙션 모듈을 통해 추출되고, 음성과 음향 효과 간의 상호작용은 셀프 어텐션 메커니즘을 통해 시뮬레이션됩니다. 마지막으로, 인터랙티브 음성 및 음향 효과 특징은 크로스 어텐션을 통해 각 시간 간격에 주입되는데, 이를 인터벌 특징 주입 메커니즘이라고 합니다.

글로벌 특징 주입

음악적 특징에 관해서는,본 논문은 영상 전체의 시각적 감정을 제어하기 위한 전반적인 흐름을 설계한다.음악적 특징은 전반적인 미적 감각을 표현하기 때문에, 먼저 전역 컨텍스트 인코더를 통해 음악에서 전반적인 시각적 감정을 추출하고, 평균 풀링을 적용하여 전체 세그먼트의 전역 특징을 얻습니다. 마지막으로, 이러한 전역 특징을 임베딩으로 사용하여 AdaLN을 통해 비디오 잠재 코드를 변조하는데, 이를 전역 특징 주입 메커니즘이라고 합니다.

영화 수준의 고품질 오디오 동기화 비디오를 정확하게 생성합니다.

종합 평가 지표

본 논문은 다단계 훈련 전략의 효과를 다양한 학습 단계에서 검증하기 위해, 실험 부분에서 비디오 품질, 시간적 일관성, 멀티모달 정렬 능력 등을 포괄하는 종합적인 평가 지표를 사용하여 복잡한 제어 신호를 점진적으로 도입한 후 모델의 전반적인 안정성과 일관성 성능을 체계적으로 평가하고, 이를 세 가지 최첨단 방법과 비교한다.

생성 품질 및 시간적 안정성 측면에서, 본 연구는 FVD를 사용하여 생성된 비디오와 실제 비디오 간의 분포 차이를 측정하고, Temp-C를 사용하여 인접 프레임 간의 시간적 연속성을 평가합니다. 결과는 MTV가 FVD에서 기존 방법보다 현저히 우수한 성능을 보임을 보여주며, 이는 MTV 모델이 더욱 복잡한 오디오 제어를 도입했음에도 불구하고 전반적인 생성 품질을 저하시키지 않으면서 Temp-C에서 높은 시간적 안정성을 유지함을 나타냅니다.

멀티모달 정렬 수준에서, 본 연구는 Text-C 및 Audio-C 지표를 각각 사용하여 비디오와 텍스트/오디오 간의 일관성을 측정했습니다. MTV는 Audio-C 지표에서 비교 방법들을 훨씬 능가하는 상당한 개선을 보여주었으며, 이는 오디오 디믹싱 및 멀티스트림 제어 메커니즘이 시청각적 대응성을 강화하는 데 효과적임을 반영합니다.

음성 기반 시나리오의 주요 문제를 해결하기 위해, 본 논문에서는 동기화 신뢰도와 오류 크기를 각각 평가하는 두 가지 동기화 지표인 Sync-C와 Sync-D를 도입하여 최적의 성능을 달성합니다.

비교 결과

위 그림에서 볼 수 있듯이, 연구진은 MTV 프레임워크를 현재 최첨단(SOTA) 결과와 비교했습니다. 시각적 관점에서 볼 때, 기존 방법들은 일반적으로 복잡한 텍스트 설명이나 영화 장면을 처리할 때 안정성이 부족한 것으로 나타났습니다.

예를 들어, 공식 코드를 사용하여 8개의 NVIDIA A100 GPU에서 32만 단계 이상 MM-Diffusion을 미세 조정했음에도 불구하고, 시각적으로 일관성 있고 서사 구조를 갖춘 이미지를 생성하는 데 어려움을 겪었으며, 전체적인 스타일은 마치 조각들을 이어 붙인 것처럼 보였습니다. 반면, TempoTokens는 복잡한 장면, 특히 다인물이나 고해상도 환경에서 부자연스러운 표정과 움직임을 만들어내는 경향이 있어 생성된 결과물의 사실감을 크게 떨어뜨립니다. 시청각 동기화와 관련하여, Xing 외 연구진의 방법은 특정 이벤트 시퀀스에서 오디오 동기화를 달성하는 데 어려움을 겪어 기타 연주 중 캐릭터 동작 렌더링 오류가 발생합니다(위 이미지 오른쪽 참조).

반면, MTV 프레임워크는 다양한 시나리오에서 높은 영상 품질과 안정적인 시청각 동기화를 유지할 수 있으며, 영화 같은 품질의 오디오 동기화 영상을 정확하게 생성할 수 있습니다.

참조 링크:
1.https://arxiv.org/abs/2506.08003

NeurIPS 2025에 선정된 지위안대학교, 베이징대학교, 베이징우정통신대학교는 오디오 디믹싱을 기반으로 정밀한 시청각 동기화를 구현하는 멀티스트림 제어 비디오 생성 프레임워크를 제안했습니다.

7달 전