16일 전
Phantom-Data: 주제 일관성 있는 비디오 생성을 위한 일반적인 데이터셋
Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu

초록
주제-비디오 생성은 최근 몇 년 동안 상당한 진전을 이뤘습니다. 그러나 기존 모델들은 여전히 텍스트 지시사항을 충실히 따르는 데 큰 어려움을 겪고 있습니다. 이 제한은 일반적으로 '복사-붙여넣기 문제'로 알려져 있으며, 타겟 비디오와 같은 장면에서 참조 이미지를 샘플링하는 널리 사용되는 쌍 내(in-pair) 학습 패러다임에서 발생합니다. 이러한 문제를 해결하기 위해, 우리는 Phantom-Data라는 첫 번째 일반적인 쌍 간 주제-비디오 일관성 데이터셋을 소개합니다. 이 데이터셋은 다양한 범주에 걸쳐 약 100만 개의 정체성 일관성 쌍을 포함하고 있습니다.우리의 데이터셋은 세 단계 파이프라인을 통해 구성됩니다: (1) 일반적이고 입력에 맞춰진 주제 검출 모듈, (2) 5,300만 개 이상의 비디오와 30억 개 이상의 이미지에서 대규모로 다른 맥락 간 주제 검색, 그리고 (3) 맥락 변동 하에서 시각적 일관성을 보장하기 위한 사전 가이드된 정체성 검증. 포괄적인 실험 결과, Phantom-Data를 활용한 학습은 프롬프트 일치도와 시각적 품질을 크게 향상시키면서 쌍 내(baseline) 기준과 동등한 수준으로 정체성 일관성을 유지하는 것으로 나타났습니다.