Command Palette

Search for a command to run...

8일 전

비디오-프롬프트: 비디오 생성을 위한 통합적 의미 제어

Yuxuan Bian Xin Chen Zenan Li Tiancheng Zhi Shen Sang Linjie Luo Qiang Xu

비디오-프롬프트: 비디오 생성을 위한 통합적 의미 제어

초록

비디오 생성에서 통합적이고 일반화 가능한 의미론적 제어는 여전히 중요한 미해결 과제로 남아 있다. 기존의 방법들은 구조 기반 제어에서 유도하는 부적절한 픽셀 단위 사전 지식을 강제 적용함으로써 아티팩트를 유발하거나, 일반화 불가능한 조건별 미세조정 또는 작업별 특화된 아키텍처에 의존한다. 본 연구에서는 이 문제를 ‘문맥 내 생성(context-in-context generation)’으로 재정의하는 새로운 패러다임인 Video-As-Prompt(VAP)을 제안한다. VAP은 참조 비디오를 직접적인 의미론적 프롬프트로 활용하며, 플러그 앤 플레이 가능한 트랜스포머 혼합(Mixture-of-Transformers, MoT) 전문가를 통해 고정된 비디오 확산 트랜스포머(Video Diffusion Transformer, DiT)를 안내한다. 이 아키텍처는 치명적인 기억 상실(catastrophic forgetting)을 방지하며, 시간적 편향(position embedding)을 갖춘 임베딩을 통해 비현실적인 매핑 사전 지식을 제거함으로써 강력한 문맥 검색 능력을 확보한다. 본 연구의 접근 방식을 구현하고 향후 연구를 촉진하기 위해, 100개의 의미론적 조건에 걸쳐 10만 개 이상의 쌍으로 구성된, 의미론적 제어 비디오 생성을 위한 최대 규모의 데이터셋인 VAP-Data를 구축하였다. 단일 통합 모델로서 VAP는 오픈소스 방법 중 최고 성능을 기록하며, 주관적 선호도 평가에서 38.7%의 높은 점수를 기록하여 전문적인 상용 모델과 경쟁할 수 있는 수준에 도달했다. VAP의 뛰어난 제로샷 일반화 능력과 다양한 후속 응용 분야 지원은 보편적이고 제어 가능한 비디오 생성을 향한 중요한 전진이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp