Command Palette
Search for a command to run...

要約
インストラクションベースの動画編集は、コンテンツ制作の民主化を実現する可能性を秘めている一方で、大規模かつ高品質な学習データの不足によってその進展が著しく制限されている。本研究では、この根本的な課題に取り組むため、包括的なフレームワーク「Ditto」を提案する。Dittoの核となるのは、先進的な画像編集ツールの創造的多様性と、文脈内動画生成モデルを融合させた新規なデータ生成パイプラインであり、従来のモデルが抱える範囲の狭さを克服する。このプロセスを現実的かつ効率的に実現するため、本フレームワークは、時系列の補強機構(temporal enhancer)を搭載した効率的で軽量化されたモデルアーキテクチャを採用することで、計算コストと品質のトレードオフを解消し、同時に計算負荷の低減と時系列的一貫性の向上を両立している。さらに、スケーラビリティを完全に実現するため、この全パイプラインは、多様なインストラクションを自動生成し、出力結果を厳密にフィルタリングする知能型エージェントによって駆動されている。本フレームワークを用いて、12,000 GPU日以上を投資し、100万件の高忠実度動画編集例から構成される新データセット「Ditto-1M」を構築した。このデータセットを用いて、カリキュラム学習戦略を採用してモデル「Editto」を学習させた。実験の結果、優れたインストラクション追従能力を示し、インストラクションベースの動画編集分野において新たなSOTA(最先端)を確立した。