HyperAI초신경
16일 전

Phantom-Data: 주제 일관성 있는 비디오 생성을 위한 일반적인 데이터셋

Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
Phantom-Data: 주제 일관성 있는 비디오 생성을 위한 일반적인 데이터셋
초록

주제-비디오 생성은 최근 몇 년 동안 상당한 진전을 이뤘습니다. 그러나 기존 모델들은 여전히 텍스트 지시사항을 충실히 따르는 데 큰 어려움을 겪고 있습니다. 이 제한은 일반적으로 '복사-붙여넣기 문제'로 알려져 있으며, 타겟 비디오와 같은 장면에서 참조 이미지를 샘플링하는 널리 사용되는 쌍 내(in-pair) 학습 패러다임에서 발생합니다. 이러한 문제를 해결하기 위해, 우리는 Phantom-Data라는 첫 번째 일반적인 쌍 간 주제-비디오 일관성 데이터셋을 소개합니다. 이 데이터셋은 다양한 범주에 걸쳐 약 100만 개의 정체성 일관성 쌍을 포함하고 있습니다.우리의 데이터셋은 세 단계 파이프라인을 통해 구성됩니다: (1) 일반적이고 입력에 맞춰진 주제 검출 모듈, (2) 5,300만 개 이상의 비디오와 30억 개 이상의 이미지에서 대규모로 다른 맥락 간 주제 검색, 그리고 (3) 맥락 변동 하에서 시각적 일관성을 보장하기 위한 사전 가이드된 정체성 검증. 포괄적인 실험 결과, Phantom-Data를 활용한 학습은 프롬프트 일치도와 시각적 품질을 크게 향상시키면서 쌍 내(baseline) 기준과 동등한 수준으로 정체성 일관성을 유지하는 것으로 나타났습니다.