
要約
条件付き拡散生成におけるガイドランスは、サンプル品質および制御性の観点から極めて重要である。しかし、現在のガイドランス手法には改善の余地がある。一方で、分類器ガイドランスや分類器フリー・ガイドランスといった主流手法は、ラベル付きデータを用いた追加学習を必要とし、学習に時間がかかり、新たな条件に柔軟に対応できないという課題がある。他方、訓練不要な手法としてユニバーサル・ガイドランスが提案されているが、それらはより高い柔軟性を備えながらも、既存手法と同等の性能を実証できていない。本研究では、設計空間の包括的調査を通じて、訓練を伴わず既存の分類器を活用することで、従来のガイドランス手法に比べて顕著な性能向上が可能であることを示す。一般化された補正(calibration)を指針として、事前学習済みの既存分類器を効果的に活用するための複数の事前処理技術を提案する。ImageNetにおける広範な実験により、本手法の有効性を検証した結果、DDPM、EDM、DiTといった最先端の拡散モデルにおいて、わずかな追加計算コストで最大20%の性能向上が達成された。公開された事前学習済み分類器の普及に伴い、本手法はテキストから画像生成への応用にも容易に拡張可能であり、大きな潜在的価値を有する。コードは以下のURLから公開されている:https://github.com/AlexMaOLS/EluCD/tree/main。