
拡散型画像生成モデルは、高品質な合成コンテンツの生成に優れていますが、推論が遅く、計算コストが高いという問題があります。これまでの研究では、この問題を緩和するために、推論ステップ間で拡散トランスフォーマー内の特徴量をキャッシュし再利用する手法が試みられてきました。しかし、これらの手法はしばしば固有のヒューリスティックに依存しており、加速が限定的であるか、またはアーキテクチャ間での汎化性能が低いという課題がありました。本稿では、進化的キャッシュを使用して拡散モデルを加速する方法(Evolutionary Caching to Accelerate Diffusion models: ECAD)を提案します。ECADは遺伝的アルゴリズムに基づいており、わずかな数のキャリブレーションプロンプトのみを使用して、各モデルごとに効率的なキャッシュスケジュールを学習し、パレートフロンティアを形成します。ECADはネットワークパラメータや参照画像の変更を必要とせず、大幅な推論速度向上を実現するとともに、品質と遅延時間のトレードオフに対する細かい制御を可能にします。また、異なる拡散モデルへのシームレスな適応も可能です。特に注目すべきは、ECADで学習したスケジュールがキャリブレーション中に見られなかった解像度やモデルバリエーションにも効果的に汎化できることです。我々はPixArt-alpha, PixArt-Sigma, およびFLUX-1.devに対して複数の指標(FID, CLIP, Image Reward)と多様なベンチマーク(COCO, MJHQ-30k, PartiPrompts)を使用してECADを評価しました。その結果、以前の手法よりも一貫した改善が示されました。PixArt-alphaにおいては、ECADにより4.47 COCO FIDで前最良手法を超えるスケジュールが特定されるとともに、推論速度向上率も2.35倍から2.58倍へと向上しました。これらの結果は、ECADが拡散推論の加速においてスケーラブルかつ汎化可能なアプローチであることを確立しています。プロジェクトウェブサイトはhttps://aniaggarwal.github.io/ecadで公開されており、コードはhttps://github.com/aniaggarwal/ecadから入手できます。