12日前

任意対任意な生成:構成可能ディフュージョンによる実現

Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal
任意対任意な生成:構成可能ディフュージョンによる実現
要約

本稿では、任意の入力モダリティの組み合わせから、任意の出力モダリティ(言語、画像、動画、音声など)の組み合わせを生成可能な新規生成モデル「Composable Diffusion(CoDi)」を提案する。既存の生成AIシステムとは異なり、CoDiは複数のモダリティを並列で生成可能であり、入力の制限がテキストや画像といったモダリティの部分集合にとどまらない。多くのモダリティ組み合わせに対する学習データが存在しないにもかかわらず、我々は入力空間および出力空間におけるモダリティの整合性(alignment)を確立するアプローチを提案する。これにより、CoDiは任意の入力組み合わせを自由に条件付け可能となり、学習データに存在しなかったモダリティの組み合わせも生成することが可能となる。CoDiは、拡散プロセスにおける整合性を橋渡しすることで共有マルチモーダル空間を構築する、新たな「可編成的生成(composable generation)」戦略を採用しており、時間的に同期した動画と音声など、相互に絡み合ったモダリティの同期生成を実現する。高いカスタマイズ性と柔軟性を備え、複数モダリティの共同生成品質において優れた性能を発揮し、単一モダリティの生成においても、従来の最良手法と同等またはそれ以上である。プロジェクトページ(デモおよびコード)は以下のURLで公開されている:https://codi-gen.github.io

任意対任意な生成:構成可能ディフュージョンによる実現 | 最新論文 | HyperAI超神経