3ヶ月前

テキストから動画

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Yihao Meng Hao Ouyang Yue Yu Qiuyu Wang Wen Wang Ka Leong Cheng Hanlin Wang Yixuan Li Cheng Chen Yanhong Zeng

概要

最先端のテキストから動画生成モデルは、単独の映像クリップの生成には優れていますが、物語の本質である一貫性を持った複数ショットから構成される物語的展開の生成には至っていません。本研究では、HoloCineと名付けたモデルによって、この「物語的ギャップ」を埋め、最初のショットから最後のショットに至るまで全体として一貫性を持つシーンを生成することに成功しました。本モデルのアーキテクチャは、テキストプロンプトを特定のショットに局所化する「ウィンドウクロスアテンション（Window Cross-Attention）」機構を用いて、正確な演出制御を実現しています。また、「スパースなショット間自己アテンション（Sparse Inter-Shot Self-Attention）」構造（ショット内では密、ショット間では疎）を採用することで、数分単位の動画生成に必要な効率性を確保しています。HoloCineは、物語的整合性の新記録を達成するだけでなく、登場人物やシーンに対する持続的な記憶、そして映画技術に対する直感的な理解といった、顕著な発現的機能を備えています。本研究は、単なるクリップ合成から自動映画制作へと向かう画期的な転換を示しており、エンド・トゥ・エンドの映画制作が現実の未来となりうることを示唆しています。コードは以下のURLで公開されています：https://holo-cine.github.io/。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

テキストから動画

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Yihao Meng Hao Ouyang Yue Yu Qiuyu Wang Wen Wang Ka Leong Cheng Hanlin Wang Yixuan Li Cheng Chen Yanhong Zeng

概要

最先端のテキストから動画生成モデルは、単独の映像クリップの生成には優れていますが、物語の本質である一貫性を持った複数ショットから構成される物語的展開の生成には至っていません。本研究では、HoloCineと名付けたモデルによって、この「物語的ギャップ」を埋め、最初のショットから最後のショットに至るまで全体として一貫性を持つシーンを生成することに成功しました。本モデルのアーキテクチャは、テキストプロンプトを特定のショットに局所化する「ウィンドウクロスアテンション（Window Cross-Attention）」機構を用いて、正確な演出制御を実現しています。また、「スパースなショット間自己アテンション（Sparse Inter-Shot Self-Attention）」構造（ショット内では密、ショット間では疎）を採用することで、数分単位の動画生成に必要な効率性を確保しています。HoloCineは、物語的整合性の新記録を達成するだけでなく、登場人物やシーンに対する持続的な記憶、そして映画技術に対する直感的な理解といった、顕著な発現的機能を備えています。本研究は、単なるクリップ合成から自動映画制作へと向かう画期的な転換を示しており、エンド・トゥ・エンドの映画制作が現実の未来となりうることを示唆しています。コードは以下のURLで公開されています：https://holo-cine.github.io/。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています