HyperAIHyperAI

Command Palette

Search for a command to run...

スケーラブルなディフュージョンモデルとトランスフォーマー

William Peebles Saining Xie

概要

我々は、Transformerアーキテクチャに基づく新しいクラスの拡散モデルを提案する。画像用の潜在拡散モデルを訓練する際、従来広く用いられているU-Netバックボーンの代わりに、潜在パッチ上で動作するTransformerを採用している。前向き計算の複雑さ(Gflops単位で測定)の観点から、本研究で提唱する拡散Transformer(DiTs)のスケーラビリティを分析した。その結果、Transformerの深さ・幅の増加、または入力トークン数の増加によってGflopsが上昇するDiTは、一貫してFID値が低くなることが明らかになった。さらに、優れたスケーラビリティ特性を持つだけでなく、最大規模のDiT-XL/2モデルは、クラス条件付きImageNet 512×512および256×256ベンチマークにおいて、これまでのすべての拡散モデルを上回り、後者においては最先端のFID値2.27を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています