8ヶ月前

拡散モデル

テキストから画像生成

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

概要

条件付き拡散モデルは、最先端のテキストから画像への合成能力を示しています。最近では、多くの研究が独立した画像の合成に焦点を当てていますが、実世界の応用においては、物語を表現するために一連の連続的な画像を生成することが一般的かつ必要です。本研究では、主に物語の可視化と継続タスクに焦点を当て、歴史的なキャプションと生成された画像に基づいて自己回帰的に条件付けられた潜在拡散モデルであるAR-LDM（Auto-Regressive Latent Diffusion Model）を提案します。さらに、AR-LDMは新しいキャラクターにも適応することで汎化が可能です。当該研究者らの知る限り、これは拡散モデルを用いて一貫性のある視覚的な物語を合成することに成功した最初の研究です。定量的な結果は、PororoSV、FlintstonesSV、および新しく導入された自然画像を含む困難なデータセットVISTでAR-LDMが最先端のFIDスコアを達成していることを示しています。大規模な人間評価もまた、品質、関連性、一貫性という点でAR-LDMが優れた性能を持っていることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

拡散モデル

テキストから画像生成

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

概要

条件付き拡散モデルは、最先端のテキストから画像への合成能力を示しています。最近では、多くの研究が独立した画像の合成に焦点を当てていますが、実世界の応用においては、物語を表現するために一連の連続的な画像を生成することが一般的かつ必要です。本研究では、主に物語の可視化と継続タスクに焦点を当て、歴史的なキャプションと生成された画像に基づいて自己回帰的に条件付けられた潜在拡散モデルであるAR-LDM（Auto-Regressive Latent Diffusion Model）を提案します。さらに、AR-LDMは新しいキャラクターにも適応することで汎化が可能です。当該研究者らの知る限り、これは拡散モデルを用いて一貫性のある視覚的な物語を合成することに成功した最初の研究です。定量的な結果は、PororoSV、FlintstonesSV、および新しく導入された自然画像を含む困難なデータセットVISTでAR-LDMが最先端のFIDスコアを達成していることを示しています。大規模な人間評価もまた、品質、関連性、一貫性という点でAR-LDMが優れた性能を持っていることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています