Command Palette
Search for a command to run...
Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

要約
ビデオ生成モデルは、特に現実的なシナリオにおいて顕著な進歩を遂げており、その性能は非常に高い水準に達している。しかし、想像力豊かなシナリオでは性能が著しく低下する傾向がある。こうしたプロンプトは、頻繁に共起しない概念や、長距離の意味的関係を持つ要素を含むことが多く、学習データの分布外に位置する。既存の手法は、ビデオ品質の向上を目指してテスト時スケーリングを適用するが、固定された探索空間と静的な報酬設計により、想像力豊かなシナリオへの適応性が限られている。このギャップを埋めるために、本研究では「ImagerySearch」という、プロンプトに従った適応的テスト時探索戦略を提案する。この手法は、プロンプト内の意味的関係に応じて、推論時の探索空間および報酬関数を動的に調整することで、困難な想像的設定においてより一貫性があり、視覚的に妥当なビデオ生成を可能にする。この分野の進展を評価するため、本研究では「LDT-Bench」という、長距離意味的プロンプトに特化した初めてのベンチマークを導入する。LDT-Benchは、2,839の多様な概念ペアを含み、創造的生成能力を自動評価可能なプロトコルを備えている。広範な実験の結果、ImagerySearchはLDT-Benchにおいて、強力なビデオ生成ベースラインおよび既存のテスト時スケーリング手法を一貫して上回り、VBenchにおいても競争力のある改善を達成した。これは、さまざまなプロンプトタイプにわたって本手法の有効性が確認されたことを示している。今後、想像的ビデオ生成に関する研究を促進するため、LDT-Benchとコードを公開する予定である。