17日前

スケーラブルなディフュージョンモデルとトランスフォーマー

William Peebles, Saining Xie

要約

我々は、Transformerアーキテクチャに基づく新しいクラスの拡散モデルを提案する。画像用の潜在拡散モデルを訓練する際、従来広く用いられているU-Netバックボーンの代わりに、潜在パッチ上で動作するTransformerを採用している。前向き計算の複雑さ（Gflops単位で測定）の観点から、本研究で提唱する拡散Transformer（DiTs）のスケーラビリティを分析した。その結果、Transformerの深さ・幅の増加、または入力トークン数の増加によってGflopsが上昇するDiTは、一貫してFID値が低くなることが明らかになった。さらに、優れたスケーラビリティ特性を持つだけでなく、最大規模のDiT-XL/2モデルは、クラス条件付きImageNet 512×512および256×256ベンチマークにおいて、これまでのすべての拡散モデルを上回り、後者においては最先端のFID値2.27を達成した。