2ヶ月前

自己回帰潜在拡散モデルを用いた一貫性のある物語の生成

Xichen Pan; Pengda Qin; Yuhong Li; Hui Xue; Wenhu Chen
自己回帰潜在拡散モデルを用いた一貫性のある物語の生成
要約

条件付き拡散モデルは、最先端のテキストから画像への合成能力を示しています。最近では、多くの研究が独立した画像の合成に焦点を当てていますが、実世界の応用においては、物語を表現するために一連の連続的な画像を生成することが一般的かつ必要です。本研究では、主に物語の可視化と継続タスクに焦点を当て、歴史的なキャプションと生成された画像に基づいて自己回帰的に条件付けられた潜在拡散モデルであるAR-LDM(Auto-Regressive Latent Diffusion Model)を提案します。さらに、AR-LDMは新しいキャラクターにも適応することで汎化が可能です。当該研究者らの知る限り、これは拡散モデルを用いて一貫性のある視覚的な物語を合成することに成功した最初の研究です。定量的な結果は、PororoSV、FlintstonesSV、および新しく導入された自然画像を含む困難なデータセットVISTでAR-LDMが最先端のFIDスコアを達成していることを示しています。大規模な人間評価もまた、品質、関連性、一貫性という点でAR-LDMが優れた性能を持っていることを示しています。