Command Palette
Search for a command to run...

초록
지시 기반 비디오 편집은 콘텐츠 제작의 민주화를 약속하지만, 대규모이고 고품질의 훈련 데이터 부족으로 인해 그 발전이 심각하게 제한되고 있다. 본 연구에서는 이 근본적인 과제를 해결하기 위해 종합적인 프레임워크인 Ditto를 제안한다. Ditto의 핵심은 최첨단 이미지 편집기의 창의적 다양성과 맥락 내 비디오 생성기( in-context video generator)를 융합한 혁신적인 데이터 생성 파이프라인을 갖추고 있다. 이는 기존 모델의 제한된 범위를 극복하는 데 기여한다. 이러한 과정을 실현 가능하게 하기 위해, 본 프레임워크는 효율적인 소규모 모델 아키텍처에 시계열 강화 기술(temporal enhancer)을 추가함으로써 계산 비용과 품질 간의 금기적 트레이드오프를 해결한다. 이는 동시에 계산 부담을 줄이고 시계열 일관성(temporal coherence)을 향상시킨다. 마지막으로, 완전한 확장성을 달성하기 위해 전체 파이프라인은 지능형 에이전트에 의해 구동되며, 이 에이전트는 다양한 지시어를 생성하고 출력을 엄격히 필터링함으로써 대규모에서의 품질 관리를 보장한다. 본 프레임워크를 활용해, 우리는 12,000개 이상의 GPU-일(GPU-days)을 투자하여, 100만 개의 고정밀도 비디오 편집 예제로 구성된 새로운 데이터셋인 Ditto-1M을 구축하였다. 또한, 교과과정 학습(curriculum learning) 전략을 사용해 Ditto-1M을 기반으로 Editto 모델을 훈련시켰다. 실험 결과, 뛰어난 지시어 수행 능력을 입증하며, 지시 기반 비디오 편집 분야에서 새로운 최고 성능(SOTA, state-of-the-art)을 수립하였다.