17日前
MDTv2:マスクドディフュージョントランスフォーマーは強力な画像合成器である
Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan

要約
画像合成において優れた成果を上げているものの、拡散確率モデル(DPMs)は画像内のオブジェクトパーツ間の関係性を学習するための文脈的推論能力に欠けることが多く、学習プロセスが遅くなる傾向がある。この問題を解決するため、本研究では、画像内のオブジェクトの意味的パーツ間における文脈的関係学習能力を明示的に強化するためのマスク潜在モデル方式を導入した「マスク拡散トランスフォーマー(Masked Diffusion Transformer: MDT)」を提案する。訓練段階では、MDTは潜在空間内で特定のトークンをマスクする。その後、マスクされたトークンを未マスクのトークンから予測するための非対称な拡散トランスフォーマーを設計し、拡散生成プロセスを維持する。これにより、MDTは不完全な文脈的入力から画像の完全な情報を再構成可能となり、画像トークン間の関連性を効果的に学習できる。さらに、より効率的なマクロネット構造と学習戦略を導入したMDTv2を提案した。実験結果から、MDTv2は優れた画像合成性能を達成しており、ImageNetデータセットにおいて新たなSOTA(最良の成果)となるFIDスコア1.58を記録するとともに、従来のSOTAであるDiTと比較して10倍以上の高速な学習速度を実現した。ソースコードはGitHubにて公開されている:https://github.com/sail-sg/MDT。