3ヶ月前

DiffiT:画像生成のための拡散ビジョン変換器

Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat
DiffiT:画像生成のための拡散ビジョン変換器
要約

拡散モデルは、強力な表現力と高いサンプル品質を備えており、生成分野において最先端(SOTA)の性能を達成している。また、先駆的なビジョントランスフォーマー(ViT)も、特に認識タスクにおいて優れたモデル化能力とスケーラビリティを示している。本論文では、ViTが拡散ベースの生成学習において果たす有効性を検討し、新たなモデルとして「拡散ビジョントランスフォーマー(Diffusion Vision Transformers, DiffiT)」を提案する。具体的には、ノイズ除去プロセスの細かい制御を可能にする手法を設計し、時間依存型マルチヘッド自己注意機構(Time-dependant Multihead Self Attention, TMSA)を導入した。DiffiTは、高忠実度の画像生成において驚くべき効果を発揮し、パラメータ効率性において顕著な改善を示している。さらに、潜在空間および画像空間用のDiffiTモデルを提案し、さまざまなクラス条件付きおよび無条件の合成タスクにおいて、異なる解像度でSOTA性能を達成することを示した。潜在空間版のDiffiTは、ImageNet256データセットにおいて1.73という新たなSOTA FIDスコアを達成しつつ、他のトランスフォーマーに基づく拡散モデル(MDTやDiTなど)と比較して、それぞれ19.85%、16.88%のパラメータ削減を実現した。コード:https://github.com/NVlabs/DiffiT