HyperAIHyperAI

Command Palette

Search for a command to run...

Show-1:テキストから動画生成に向けたピクセルと潜在拡散モデルの統合

概要

大規模な事前学習済みテキストから動画への変換Diffusionモデル(VDM)分野において、顕著な進展が達成されている。しかし、従来の手法は、計算コストが非常に高いピクセルベースのVDMに依存するものや、テキストと動画の正確な対応(text-video alignment)を維持しづらい潜在空間ベースのVDMに依存するものであった。本論文では、初めてピクセルベースと潜在空間ベースのVDMを統合したハイブリッドモデル「Show-1」を提案する。本モデルは、まずピクセルベースのVDMを用いて、テキストと動画の関連性が強い低解像度動画を生成する。その後、新たなエキスパート変換手法を提案し、潜在空間ベースのVDMを用いて低解像度動画を高解像度にアップサンプリングする。このプロセスにより、低解像度動画に生じる可能性のあるアーティファクトや歪みを除去することが可能となる。潜在空間ベースのVDMと比較して、Show-1は正確なテキスト-動画対応を維持しつつ高品質な動画を生成できる。一方、ピクセルベースのVDMと比較して、Show-1ははるかに効率的であり、推論時のGPUメモリ使用量は72GBに対して15GBにまで削減される。さらに、本モデルは時間的アテンション層の簡単な微調整により、モーションカスタマイズやビデオスタイル化の応用に容易に適応可能である。Show-1は標準的な動画生成ベンチマークにおいて、最先端の性能を達成した。本研究のコードおよびモデル重みは、https://github.com/showlab/Show-1 にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Show-1:テキストから動画生成に向けたピクセルと潜在拡散モデルの統合 | 記事 | HyperAI超神経