AIが次々と映像のカットを予測——映画級連続性を実現する新フレームワーク「Cut2Next」が登場
シンガポール南洋理工大学、香港中文大学、上海人工智能実験室の共同研究チームが、映画レベルの連続的な映像生成を実現する新フレームワーク「Cut2Next」を開発した。この技術は、「次のシーンの予測(Next Shot Generation, NSG)」を核に、視覚的一貫性と物語の流れを同時に保つことで、映像制作の効率化と創造性の拡張を可能にする。研究はarXivに掲載され、審査者から「DiT(Diffusion Transformer)と階層的プロンプト戦略の組み合わせが、プロの編集スタイルに準拠した高品質なシーン生成を実現した」と評価された。 Cut2Nextは、単一のシーン生成にとどまらず、複数のシーンを連続的に生成する能力を持つ。特に、視覚的整合性(キャラクター、照明、トーンの統一)と叙事的整合性(カメラの位置、動き、カットの流れ)の両立を重視。従来の文生動画モデルは、長編映像では「幻覚」や「世界観の崩壊」が生じやすく、物語の連続性が損なわれる問題があったが、Cut2Nextは「文脈感知条件注入(CACI)」と「階層的注意マスク(HAM)」を導入することで、計算コストを抑えながらも、長時間・高品質な映像生成を実現した。 研究チームは、モデルの訓練と精調に向け、2つの新データセットを構築した。一つは20万以上のシーンペアを含む「RawCuts」(大規模な多様性を重視)、もう一つは映画的手法に基づく精細なラベル付けが施された「CuratedCuts」(審美性と叙事性を高める)。実験では、Cut2Nextが既存の文生動画モデルを上回る視覚的整合性と物語的一貫性を示した。 この技術は、映画やテレビドラマのストーリーボード作成、AIGC短編ドラマの高速制作、SNS向けコンテンツ生成に応用可能。また、インタラクティブゲームやロボットの具身知能におけるシミュレーションデータ生成にも活用できる。研究の共同通訊著者である南洋理工大学の劉子緯准教授は、「AIが『物語の言語』を理解できる段階に進んでいる」と指摘。彼は、今後は3D・4D空間の理解へと進み、人間の生活や感情を再現するための高度なシミュレーションデータの創出を目指すと述べている。 研究チームは、モデルとデータのオープンソース化を計画しており、映画会社やコンテンツ制作企業と連携し、実際の制作現場での効率化を図る予定。今後は、AIと人間の協働によるクリエイティブな物語生成の新たな可能性が広がる。