텍스트 없는 비디오를 활용한 텍스트-비디오 생성 확장의 조리법

지난해 동안 텍스트 기반의 디퓨전 기반 영상 생성 기술은 놀라운 진전을 이뤘지만, 여전히 텍스트 기반 이미지 생성 기술에 비해 뒤처져 있다. 그 주요 원인 중 하나는 영상-텍스트 쌍 데이터의 공개 규모가 제한적이기 때문이다(예: WebVid10M의 경우 1,000만 개의 영상-텍스트 쌍에 비해 LAION은 50억 개의 이미지-텍스트 쌍). 이는 영상 설명 생성(비디오 캡셔닝)에 드는 높은 비용 때문이며, 반면 유튜브와 같은 영상 플랫폼에서 레이블이 없는 영상 클립을 수집하는 것은 훨씬 더 쉬운 작업이다. 이러한 점에 착안하여, 본 연구에서는 텍스트 없는 영상 데이터를 직접 활용할 수 있는 새로운 텍스트 기반 영상 생성 프레임워크인 TF-T2V를 제안한다. 이 접근법의 핵심은 텍스트 디코딩 과정과 시간적 모델링 과정을 분리하는 것이다. 이를 위해 콘텐츠 브랜치와 모션 브랜치를 도입하였으며, 이 두 브랜치는 공유된 가중치를 통해 공동 최적화된다. 이러한 프로세스를 기반으로, 텍스트 없는 영상만으로 구성된 훈련 데이터셋 규모를 두 배로 늘린 결과(영상 전용 WebVid10M + 무작위로 수집한 텍스트 없는 영상)를 분석한 결과, 성능 향상이 확인되었다(FID: 9.67 → 8.19, FVD: 484 → 441), 이는 본 방법론의 확장 가능성을 입증한다. 또한, 훈련 과정에 일부 텍스트 레이블을 재도입함으로써 모델이 지속적인 성능 향상을 경험할 수 있음을 확인하였다(FID: 8.19 → 7.64, FVD: 441 → 366). 마지막으로, 본 연구의 아이디어가 원천적인 텍스트 기반 영상 생성과 구성형 영상 합성(Compositional Video Synthesis) 두 가지 패러다임 모두에서 효과적이고 일반화 가능한 성능을 보임을 검증하였다. 코드 및 모델은 공개적으로 https://tf-t2v.github.io/ 에 제공될 예정이다.