11日前

SelfEval：生成モデルの識別特性を活用した評価

Sai Saketh Rambhatla, Ishan Misra

要約

本稿では、標準的な画像-テキスト認識データセットを活用して、テキストから画像を生成する拡散モデルのテキスト整合性を自動評価する手法を提案する。本手法は「SelfEval」と名付けられ、生成モデルを用いてテキストプロンプトが与えられたときの実画像の尤度を計算し、その尤度を用いて生成モデル自体で認識タスクを実行可能とする。我々は、マルチモーダルなテキスト-画像識別学習を目的とした標準データセット上で生成モデルを評価し、属性の結合、色認識、数え上げ、形状認識、空間理解といった細分化された性能指標を検証した。既存の自動評価指標は、CLIP（VLM）やLLMなどの外部事前学習モデルに依存しており、その具体的なモデル選択や限界に敏感であるという問題を抱えている。一方、SelfEvalはこうした課題を回避し、複数の生成モデル、ベンチマーク、評価指標にわたって、ゴールドスタンダードである人間評価との高い一致度を示す初めての自動評価指標であると考えられる。また、SelfEvalは、Winoground画像スコアなど、高い難易度を持つタスクにおいても、生成モデルが識別モデルと比較して競争力のある認識性能を示すことを明らかにした。本研究は、SelfEvalが拡散モデルの評価において容易かつ信頼性の高い自動評価を可能にするものと期待している。