17日前

敵対的スコアID推定:1ステップで教師モデルを迅速に上回る

Mingyuan Zhou, Huangjie Zheng, Yi Gu, Zhendong Wang, Hai Huang
敵対的スコアID推定:1ステップで教師モデルを迅速に上回る
要約

Score Identity Distillation(SiD)は、トレーニングデータを一切必要とせず、事前に学習された拡散モデルのみを活用することで、画像生成においてSOTA(最新の最良性能)を達成するデータフリーな手法である。しかし、その限界は、事前学習モデルが拡散プロセスの各段階において真のデータスコアをどれだけ正確に捉えているかに依存している。本論文では、実画像と adversarial loss(敵対的損失)を組み込むことで、生成品質の向上と蒸留効率の改善を両立する新手法SiDA(SiD with Adversarial Loss)を提案する。SiDAは、生成器のスコアネットワークに含まれるエンコーダをディスクリミネータとして活用し、実画像とSiDによって生成された画像を区別できるようにしている。この敵対的損失は、各GPUバッチ内でバッチ正規化され、元のSiD損失と組み合わされる。この統合により、GPUバッチごとの平均的な「偽物度(fakeness)」がピクセルベースのSiD損失に効果的に組み込まれ、単一ステップの生成器を蒸留可能となる。SiDAは、初期から蒸留を開始する場合、前駆手法と比較して著しく高速に収束し、事前に蒸留されたSiD生成器からのファインチューニングにおいても、元のモデルの性能を迅速に上回る。この単一ステップの敵対的蒸留手法は、EDM拡散モデルの蒸留において新たなベンチマークを確立し、ImageNet 64×64データセットにおいてFIDスコア1.110を達成した。また、ImageNet 512×512で訓練されたEDM2モデルを蒸留する場合、SiDAは、分類器フリー推論(CFG)と63ステップの生成を用いてFID 1.81を達成した最大規模の教師モデルEDM2-XXLをも上回る。一方、SiDAはCFGを一切使用せずに、XSサイズでFID 2.156、Sで1.669、Mで1.488、Lで1.413、XLで1.379、XXLで1.366という結果を達成し、いずれも単一生成ステップで実現した。これらの結果は、全モデルサイズにおいて顕著な性能向上を示している。本研究のコードは、https://github.com/mingyuanzhou/SiD/tree/sida にて公開されている。