8ヶ月前

テキストから動画

マルチモーダル

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

概要

大規模な事前学習済みトランスフォーマーは、テキスト生成（GPT-3）およびテキストから画像生成（DALL-EやCogView）において画期的な進展をもたらした。しかし、動画生成への応用には依然として多くの課題が残っている。まず、訓練をゼロから行う場合、膨大な計算コストが発生し、実用的な範囲を超えてしまう。また、テキストと動画の対応データセットが不足しており、その関連性も弱いため、モデルが複雑な運動の意味を適切に理解することが困難である。本研究では、事前学習済みのテキストから画像生成モデルであるCogView2を継承して学習した、90億パラメータを有するトランスフォーマー「CogVideo」を提案する。さらに、テキストと動画クリップのより良い同期を実現するため、複数フレームレートを用いた階層的訓練戦略を導入した。本モデルは、おそらく世界初のオープンソースの大規模事前学習型テキストから動画生成モデルであり、機械評価および人間評価の両面で、公開されているすべての既存モデルを大きく上回る性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

テキストから動画

マルチモーダル

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

概要

大規模な事前学習済みトランスフォーマーは、テキスト生成（GPT-3）およびテキストから画像生成（DALL-EやCogView）において画期的な進展をもたらした。しかし、動画生成への応用には依然として多くの課題が残っている。まず、訓練をゼロから行う場合、膨大な計算コストが発生し、実用的な範囲を超えてしまう。また、テキストと動画の対応データセットが不足しており、その関連性も弱いため、モデルが複雑な運動の意味を適切に理解することが困難である。本研究では、事前学習済みのテキストから画像生成モデルであるCogView2を継承して学習した、90億パラメータを有するトランスフォーマー「CogVideo」を提案する。さらに、テキストと動画クリップのより良い同期を実現するため、複数フレームレートを用いた階層的訓練戦略を導入した。本モデルは、おそらく世界初のオープンソースの大規模事前学習型テキストから動画生成モデルであり、機械評価および人間評価の両面で、公開されているすべての既存モデルを大きく上回る性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています