17日前

生成モデル評価指標の欠陥と、拡散モデルに対する不公平な扱いの暴露

George Stein, Jesse C. Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan Leigh Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L. Caterini, J. Eric T. Taylor, Gabriel Loaiza-Ganem
生成モデル評価指標の欠陥と、拡散モデルに対する不公平な扱いの暴露
要約

本研究では、意味的に多様な画像データセットにわたる広範な生成モデルを体系的に検討し、それらを評価するために用いられる特徴抽出器および評価指標の理解と改善を目的とする。心理物理学の最良実践を用いて、これまでにない規模の実験を実施し、生成画像の現実性に対する人間の知覚を測定した結果、既存のあらゆる評価指標が人間の評価と強い相関を示さないことが明らかになった。生成モデルの全体的な性能、忠実度、多様性、希少性、記憶化(memorization)を評価するための17種類の現代的指標と比較した結果、人間による評価では最先端の知覚的現実性を示す拡散モデル(diffusion models)の性能が、FIDなどの一般的に報告される指標には反映されていないことが判明した。この乖離は、生成サンプルの多様性とは関係ないが、Inception-V3に過度に依存していることが一因であることが示された。これらの課題を克服するため、代替的な自己教師付き特徴抽出器の検討を行い、個々のネットワークがエンコードする意味情報がその学習プロセスに強く依存することを明らかにした。さらに、DINOv2-ViT-L/14が生成モデルの評価においてはるかに豊かな情報を提供できることを示した。次に、データ記憶化の問題を検証したところ、CIFAR10のようなシンプルで小さなデータセットでは生成モデルが訓練サンプルを記憶していることが確認されたが、ImageNetのようなより複雑なデータセットでは必ずしもそうではないことが分かった。しかし、我々の実験から、現在の評価指標は記憶化を適切に検出できないことが明らかになった。既存の文献に存在するどの指標も、記憶化と過小適合(underfitting)やモード縮小(mode shrinkage)といった他の現象を適切に分離できないことが示された。生成モデルおよびその評価手法のさらなる発展を促進するため、すべての生成画像データセット、人間評価データ、および9種類のエンコーダに対応する17の一般的な評価指標を計算可能なモジュールライブラリを、https://github.com/layer6ai-labs/dgm-eval にて公開した。