17日前

トレイサテッドコンシステンシーモデル

Sangyun Lee, Yilun Xu, Tomas Geffner, Giulia Fanti, Karsten Kreis, Arash Vahdat, Weili Nie

要約

最近、確率フロー常微分方程式（PF ODE）の解（すなわちデータ）を初期ノイズから直接予測することで、拡散モデルからのサンプリングを高速化するための一貫性モデル（consistency models）が提案された。しかし、一貫性モデルの学習では、PF ODEの軌道上のすべての中間点をその対応する終点に写像する能力を学習する必要がある。これは、最終的な目的である1ステップ生成（ノイズからデータへの写像）よりもはるかに困難なタスクである。我々は実験的にこの学習枠組みが、一貫性モデルの1ステップ生成性能を制限していることを明らかにした。この問題に対処するため、我々は時間範囲を切り詰めた（truncated time range）一貫性学習に一般化した。これにより、モデルは初期の時間ステップにおけるノイズ除去タスクを無視し、生成性能に注力できるようになる。さらに、一貫性関数の新たなパラメータ化と、切り詰め時間範囲での学習が自明な解に収束するのを防ぐための2段階学習プロシージャを提案する。CIFAR-10およびImageNet $64\times64$ データセットにおける実験結果から、本手法はiCT-deepを含む最先端の一貫性モデルよりも、1ステップおよび2ステップのFIDスコアをより良好に達成でき、ネットワークサイズを2倍以上小さくしても高い性能を発揮することが示された。プロジェクトページ：https://truncated-cm.github.io/

トレイサテッド コンシステンシー モデル

トレイサテッドコンシステンシーモデル