HyperAI초신경
하루 전

FreeLong++: 멀티밴드 스펙트럴 융합을 통한 트레이닝이 필요 없는 장시간 비디오 생성

Yu Lu, Yi Yang
FreeLong++: 멀티밴드 스펙트럴 융합을 통한 트레이닝이 필요 없는 장시간 비디오 생성
초록

최근 비디오 생성 모델의 발전으로 텍스트 프롬프트에서 고품질의 짧은 비디오를 생성하는 것이 가능해졌습니다. 그러나 이러한 모델을 더 긴 비디오로 확장하는 것은 주로 시간적 일관성과 시각적 충실도가 저하되기 때문에 여전히 큰 도전입니다. 우리의 초기 관찰에 따르면, 짧은 비디오 생성 모델을 긴 시퀀스에 단순히 적용하면 품질이 눈에 띄게 저하되는 것으로 나타났습니다. 추가 분석을 통해 비디오 길이가 증가함에 따라 고주파 성분이 점점 왜곡되는 체계적인 경향성을 확인하였으며, 이 문제를 고주파 왜곡(고주파 distorsion)이라고 명명하였습니다.이 문제를 해결하기 위해, 우리는 FreeLong이라는 학습이 필요하지 않은 프레임워크를 제안합니다. FreeLong은 전체 비디오에서 전반적인 의미를 포착하는 전역 저주파 특징과 짧은 시간 창에서 추출한 지역 고주파 특징을 혼합하여 노이즈 제거 과정 중 장비디오 특징의 주파수 분포를 균형 있게 유지하도록 설계되었습니다. 이를 바탕으로, FreeLong++는 FreeLong의 듀얼 브랜치 설계를 여러 주의력 브랜치 각각이 다른 시간 스케일에서 작동하는 다중 브랜치 아키텍처로 확장합니다.전역에서 지역까지 다양한 창 크기를 배열함으로써, FreeLong++는 저주파부터 고주파까지 다중 대역 주파수 융합을 가능하게 하며, 이는 긴 비디오 시퀀스에서도 의미적 연속성과 세부적인 움직임 동력을 보장합니다. 추가 학습 없이도 FreeLong++는 기존의 비디오 생성 모델(예: Wan2.1 및 LTX-Video)에 플러그인 형태로 연결되어 시간적 일관성과 시각적 충실도가 크게 개선된 더 긴 비디오를 생성할 수 있습니다. 우리는 우리의 접근 방식이 원래 길이의 4배와 8배 등 더 긴 비디오 생성 작업에서 이전 방법들을 능가함을 입증하였습니다. 또한, 부드러운 장면 전환을 지원하는 일관된 다중 프롬프트 비디오 생성과 장 깊이나 자세 시퀀스를 사용한 제어 가능한 비디오 생성도 가능하다는 것을 보여줍니다.