画像生成におけるマルチリゾリューション・ディフュージョンモデルを用いた歪みの軽減

本論文では、新規のマルチリゾリューションネットワークと時変レイヤー正規化を導入することで、拡散モデルに対する革新的な改良を提案する。拡散モデルは、高忠実度の画像生成において優れた性能を発揮し、注目を集めている。従来の手法は畳み込み型U-Netアーキテクチャに依拠しているが、近年のTransformerベースのアーキテクチャは、より優れた性能とスケーラビリティを示している。しかし、Transformerアーキテクチャは入力データを「パッチ化」することでトークン化を行うため、自己注意機構(self-attention)の計算量がトークン長に二次的に依存するという課題に直面しており、視覚的忠実度と計算複雑さの間でトレードオフが生じる。大きなパッチサイズは注意計算の効率を高めるが、細部の視覚的特徴を捉えにくくなり、画像の歪みを引き起こす問題がある。この課題に対処するため、我々は拡散モデルにマルチリゾリューションネットワーク(DiMR)を導入する。DiMRは複数の解像度にわたり特徴を精緻化し、低解像度から高解像度へと段階的に細部を向上させるフレームワークである。さらに、時変レイヤー正規化(TD-LN)を提案する。TD-LNはパラメータ効率の高い手法であり、レイヤー正規化に時刻依存パラメータを組み込むことで、時間情報を注入し、優れた性能を達成する。本手法の有効性は、クラス条件付きImageNet画像生成ベンチマーク上で実証された。DiMR-XLのバリエーションは、従来の拡散モデルを上回り、ImageNet 256×256においてFIDスコア1.70、ImageNet 512×512において2.89という、新たな最先端(SOTA)の成績を達成した。プロジェクトページ:https://qihao067.github.io/projects/DiMR