HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem

Abstract

Prüfungen stellen einen grundlegenden Test für Expertenwissen und erfordern eine integrierte Verständnisfähigkeit, Schlussfolgerungskompetenz und Generationsfähigkeit. Bisherige Benchmark-Datenbanken im Prüfungsstil konzentrieren sich hauptsächlich auf Verständnis- und Schlussfolgerungsaufgaben, während aktuelle Benchmark-Systeme den Schwerpunkt auf die Darstellung von Weltwissen und visuellen Konzepten legen und die Bewertung anspruchsvoller Zeichenaufgaben vernachlässigen. Wir stellen GenExam vor, den ersten Benchmark für mehrdisziplinäre Text-zu-Bild-Prüfungen, der 1.000 Beispiele in 10 Fachgebieten umfasst, die mit prüfungsartigen Prompt-Anweisungen nach einem vierstufigen Taxonomie-System strukturiert sind. Jede Aufgabe verfügt über eine Referenzabbildung (Ground-truth) sowie fein abgestufte Bewertungskriterien, um eine präzise Beurteilung der semantischen Korrektheit und visuellen Plausibilität zu ermöglichen. Experimente zeigen, dass selbst state-of-the-art-Modelle wie GPT-Image-1 und Gemini-2.5-Flash-Image weniger als 15 % strikte Bewertungsergebnisse erzielen, während die meisten Modelle nahezu 0 % erreichen – was die erhebliche Herausforderung unseres Benchmarks unterstreicht. Indem wir die Bildgenerierung als Prüfung formulieren, bietet GenExam eine strenge Bewertung der Fähigkeit von Modellen, Wissen, Schlussfolgerung und Generierung zu integrieren, und liefert wertvolle Einsichten für den Weg hin zu allgemeiner künstlicher Intelligenz (AGI).

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem | Forschungsarbeiten | HyperAI