11일 전

시공간 확산에서의 스왑 어텐션: 텍스트에서 비디오 생성을 위한 접근

Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
시공간 확산에서의 스왑 어텐션: 텍스트에서 비디오 생성을 위한 접근
초록

AI 생성 콘텐츠(AIGC)의 폭발적인 인기와 함께, 영상 생성 기술에 대한 관심이 최근 크게 증가하고 있다. 텍스트 지시에 따라 영상을 생성하는 것은 공간과 시간 간의 복잡한 관계를 모델링하는 데 있어 큰 도전 과제를 안고 있으며, 대규모 텍스트-영상 쌍 데이터의 부족도 문제로 지적된다. 기존의 텍스트-영상 데이터셋은 콘텐츠 품질이나 규모 측면에서 한계를 가지고 있거나, 오픈소스가 아니어서 연구 및 활용에 접근이 어렵다는 점이 있다. 모델 설계 측면에서는 기존 방법들이 사전 훈련된 텍스트-이미지 생성 모델에 시간적 특성을 처리하기 위해 1차원 시계열 컨볼루션 또는 어텐션 모듈을 추가하는 방식을 활용해 왔다. 그러나 이러한 접근은 공간과 시간을 공동으로 모델링하는 중요성을 간과하며, 결과적으로 시간적 왜곡과 텍스트-영상 간의 비일치 현상이 발생하게 된다. 본 논문에서는 공간과 시간 인지 간의 상호작용을 강화하는 새로운 접근법을 제안한다. 특히, 3차원 윈도우 내에서 공간 블록과 시간 블록 간에 ‘쿼리(query)’ 역할을 교차 전환하는 스왑된 크로스 어텐션 메커니즘을 활용함으로써, 두 영역 간의 상호 강화를 가능하게 한다. 또한, 모델의 고품질 영상 생성 능력을 극대화하고 분야 발전을 촉진하기 위해, 대규모이고 오픈소스인 영상 데이터셋인 HD-VG-130M을 구축하였다. 이 데이터셋은 오픈 도메인에서 수집된 1억 3천만 개의 텍스트-영상 쌍으로 구성되어 있으며, 고해상도, 와이드스크린, 워터마크 없이 명확한 캐릭터 표현을 보장한다. 더 작은 규모이지만 더 철저하게 정제된 서브셋을 추가함으로써 데이터 품질을 더욱 향상시켜, 모델이 우수한 성능을 달성하는 데 기여한다. 실험을 통한 정량적 및 정성적 결과는 제안한 방법이 프레임 당 품질, 시간적 상관관계, 텍스트-영상 일치도 측면에서 기존 방법 대비 명확한 우위를 보임을 입증한다.

시공간 확산에서의 스왑 어텐션: 텍스트에서 비디오 생성을 위한 접근 | 최신 연구 논문 | HyperAI초신경