11일 전

VideoCrafter1: 고품질 영상 생성을 위한 오픈 디퓨전 모델

Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan

논문 세부 정보 보기

초록

영상 생성은 학계와 산업계 모두에서 점점 더 많은 관심을 받고 있다. 비록 상용 도구들은 자연스럽고 신뢰할 수 있는 영상을 생성할 수 있지만, 연구자와 엔지니어들이 사용할 수 있는 오픈소스 모델은 여전히 제한적이다. 본 연구에서는 고해상도 영상 생성을 위한 두 가지 확산 모델, 즉 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 모델을 제안한다. T2V 모델은 주어진 텍스트 입력을 기반으로 영상을 합성하는 반면, I2V 모델은 추가적인 이미지 입력을 활용한다. 제안하는 T2V 모델은 해상도 1024×576에서 현실적이고 영화 수준의 영상을 생성할 수 있으며, 품질 측면에서 다른 오픈소스 T2V 모델들을 능가한다. I2V 모델은 제공된 참조 이미지의 내용을 엄격히 준수하는 영상을 생성하도록 설계되었으며, 이미지의 내용, 구조 및 스타일을 유지하는 데 중점을 둔다. 본 모델은 이미지를 영상 클립으로 변환하면서 내용 보존 조건을 유지할 수 있는 최초의 오픈소스 I2V 기초 모델이다. 우리는 이러한 오픈소스 영상 생성 모델이 커뮤니티 내 기술 발전에 크게 기여할 것이라고 기대한다.