Command Palette
Search for a command to run...
Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

초록
비디오 생성 모델은 특히 현실적인 시나리오에서 놀라운 진전을 이뤘으나, 상상력이 요구되는 시나리오에서는 성능이 크게 저하된다. 이러한 프롬프트는 일반적으로 함께 등장하지 않는 희귀한 개념들 간에 장거리 의미 관계를 가진 경우가 많으며, 훈련 데이터 분포를 벗어난다. 기존의 방법들은 비디오 품질 향상을 위해 테스트 시점 스케일링(test-time scaling)을 적용하지만, 고정된 탐색 공간과 정적 보상 설계로 인해 상상력이 필요한 시나리오에 대한 적응성이 제한된다. 이 격차를 메우기 위해 우리는 프롬프트를 기반으로 하는 적응형 테스트 시점 탐색 전략인 ImagerySearch를 제안한다. 이 방법은 프롬프트 내 의미 관계에 따라 추론 시 탐색 공간과 보상 함수를 동적으로 조정함으로써, 도전적인 상상력 기반 환경에서도 더 일관성 있고 시각적으로 타당한 비디오를 생성할 수 있도록 한다. 이러한 방향의 진전을 평가하기 위해, 장거리 의미 관계를 갖는 프롬프트를 전용으로 평가할 수 있는 최초의 벤치마크인 LDT-Bench를 도입한다. LDT-Bench는 2,839개의 다양한 개념 쌍으로 구성되며, 창의적 생성 능력을 자동 평가할 수 있는 프로토콜을 제공한다. 광범위한 실험 결과에 따르면, ImagerySearch는 LDT-Bench에서 강력한 비디오 생성 기준 모델 및 기존의 테스트 시점 스케일링 방법을 일관되게 능가하며, VBench에서도 경쟁 수준의 성능 향상을 달성하여 다양한 유형의 프롬프트에 걸쳐 효과성을 입증한다. 우리는 LDT-Bench와 코드를 공개하여 상상력 기반 비디오 생성 분야의 향후 연구를 지원할 예정이다.