GenEval 2: Behandlung von Benchmark-Drift bei der Text-zu-Bild-Evaluation
GenEval 2: Behandlung von Benchmark-Drift bei der Text-zu-Bild-Evaluation
Amita Kamath Kai-Wei Chang Ranjay Krishna Luke Zettlemoyer Yushi Hu Marjan Ghazvininejad
Abstract
Die Automatisierung der Bewertung von Text-zu-Bild-(T2I)-Modellen ist herausfordernd; hierzu ist ein Urteilsmodell erforderlich, das die Korrektheit bewertet, und es müssen Test-Prompts ausgewählt werden, die für aktuelle T2I-Modelle anspruchsvoll sind, aber nicht für das Urteilsmodell. Wir argumentieren, dass die Erfüllung dieser Bedingungen zu einem sogenannten Benchmark-Drift führen kann, bei dem statische Benchmarks nicht mehr mit den fortschreitenden Fähigkeiten neuer Modelle Schritt halten können. Wir zeigen, dass Benchmark-Drift ein erhebliches Problem für GenEval, einen der beliebtesten T2I-Benchmarks, darstellt. Obwohl GenEval zum Zeitpunkt seiner Veröffentlichung gut mit menschlicher Beurteilung übereinstimmte, hat sie sich im Laufe der Zeit erheblich von der menschlichen Wahrnehmung entfernt – was zu einer absoluten Abweichung von bis zu 17,7 % bei aktuellen Modellen führt. Dieser Grad an Abweichung deutet stark darauf hin, dass GenEval bereits seit längerer Zeit ausgelastet ist, was wir durch eine großangelegte menschliche Studie bestätigen. Um diese Lücke in der Benchmarking-Praxis zu schließen, stellen wir einen neuen Benchmark, GenEval 2, vor, der eine verbesserte Abdeckung grundlegender visueller Konzepte und höhere Grade an Kompositionalität bietet und, wie wir zeigen, für aktuelle Modelle herausfordernder ist. Außerdem führen wir Soft-TIFA ein, eine Bewertungsmethode für GenEval 2, die Urteile zu visuellen Grundbegriffen kombiniert. Wir zeigen, dass diese Methode besser mit menschlicher Beurteilung übereinstimmt und argumentieren, dass sie im Vergleich zu umfassenderen Urteilsmodellen wie VQAScore weniger anfällig für eine Abweichung von der menschlichen Ausrichtung über die Zeit ist. Obwohl wir hoffen, dass GenEval 2 viele Jahre lang ein solider Benchmark bleiben wird, ist eine Vermeidung von Benchmark-Drift keinesfalls garantiert. Unser Werk unterstreicht insgesamt die Bedeutung kontinuierlicher Überprüfungen und Verbesserungen für T2I-Modelle und verwandte automatisierte Bewertungsbenchmarks.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.