Command Palette
Search for a command to run...

要約
事前学習された動画モデルは、高品質で時間的に整合性のあるコンテンツを生成するための強力な事前知識(prior)を学習します。これらのモデルは時間的整合性において優れた性能を発揮しますが、訓練データの連続性に起因して、その動的特性に制約が生じることがあります。本研究では、画像データから得られる豊富で制約のないコンテンツの多様性を、時間的に整合性の高いフレームワークに組み込むことで、自然な遷移と従来の範囲をはるかに超える広範な動的表現を備えた画像セットの生成が可能になると仮定しました。これを実現するために、強力な動画モデルを統合的な画像生成器として再利用できるように設計された「iMontage」という統合フレームワークを提案します。このフレームワークは可変長の画像セットを入力および出力でき、幅広い画像生成および編集タスクを統一的に扱います。その実現にあたり、最小限の干渉で効果的な適応戦略を提案するとともに、特化したデータ選定プロセスと学習パラダイムを導入しました。このアプローチにより、モデルは幅広い画像操作能力を習得しつつも、貴重な元の運動に関する事前知識(motion priors)を損なうことなく、維持することができます。iMontageは、複数入力・複数出力の主流タスクにおいて優れた性能を発揮し、画像間の強力な文脈的一貫性を保持するだけでなく、従来の枠組みをはるかに超える驚異的な動的表現を実現しています。詳細は当該ページをご覧ください:https://kr1sjfu.github.io/iMontage-web/。