
視覚効果(VFX)は、現代の映画制作において不可欠な視覚的強化技術である。近年、動画生成モデルはVFX制作のコスト効率を高める手段として注目されているが、現行の手法は個々の効果ごとにLoRA(Low-Rank Adaptation)を再訓練する方式に依存しており、その結果、単一の効果に限定された生成にとどまっている。この根本的な制約は、指定された位置に複数の効果を同時に生成することが求められる、空間的に制御可能な合成効果の応用を阻害している。一方で、多様な効果を統合的なフレームワークに組み込むには、効果間の差異による干渉や、複数VFXの同時学習における空間的制御不能という大きな課題が存在する。これらの課題に立ち向かうため、本研究では、プロンプト誘導型効果および空間的に制御可能な合成効果を生成可能な、世界初の統合的フレームワーク「Omni-Effects」を提案する。本フレームワークの中心となる2つの革新点は以下の通りである:(1)LoRAに基づく「専門家の混合(LoRA-MoE)」。複数の専門家LoRAを用い、多様な効果を統一モデル内に統合しつつ、タスク間干渉を効果的に抑制する。(2)空間認識型プロンプト(SAP)は、テキストトークンに空間マスク情報を組み込むことで、正確な空間的制御を可能にする。さらに、SAP内に独立した情報フロー(IIF)モジュールを導入し、各効果に対応する制御信号を分離することで、不要な効果の混合を防止する。本研究を支えるために、画像編集と「最初・最後のフレームから動画生成(FLF2V)」を組み合わせた新たなデータ収集パイプラインにより、包括的なVFXデータセット「Omni-VFX」を構築し、モデル性能の検証を目的とした専用のVFX評価フレームワークを提案した。広範な実験の結果、Omni-Effectsは正確な空間制御と多様な効果生成を実現し、ユーザーが希望する効果の種類と位置を明示的に指定できることが示された。