SelfEval: Nutzung der diskriminativen Natur generativer Modelle zur Evaluation

Wir stellen eine automatisierte Methode zur Bewertung der Text-Ausrichtung von textbasierten generativen Diffusionsmodellen vor, die standardisierte Bild-Text-Erkennungsdatasets nutzt. Unsere Methode, SelfEval genannt, verwendet das generative Modell, um die Wahrscheinlichkeit realer Bilder unter gegebenen Textprompten zu berechnen, wobei diese Wahrscheinlichkeit zur Durchführung von Erkennungsaufgaben mit dem generativen Modell herangezogen werden kann. Wir evaluieren generative Modelle anhand standardisierter Datensätze, die für multimodale text-basierte diskriminative Lernaufgaben erstellt wurden, und bewerten feinkörnige Aspekte ihrer Leistung: Attributbindung, Farnerkennung, Zählung, Formerkennung sowie räumliches Verständnis. Bestehende automatisierte Metriken beruhen auf externen vortrainierten Modellen wie CLIP (VLMs) oder LLMs und sind empfindlich gegenüber dem spezifischen vortrainierten Modell und dessen Grenzen. SelfEval umgeht diese Probleme und ist, soweit uns bekannt, die erste automatisierte Metrik, die eine hohe Übereinstimmung bei der Messung der Texttreue im Vergleich zu goldstandardbasierten menschlichen Bewertungen über mehrere generative Modelle, Benchmarks und Evaluationsmetriken hinweg zeigt. Darüber hinaus zeigt SelfEval, dass generative Modelle bei anspruchsvollen Aufgaben wie dem Winoground Image-Score eine konkurrenzfähige Erkennungsleistung erzielen, die mit der von diskriminativen Modellen vergleichbar ist. Wir hoffen, dass SelfEval eine einfache und zuverlässige automatisierte Evaluation für Diffusionsmodelle ermöglicht.