GenExam Multidisziplinärer Benchmark-Datensatz Für Literarische Und Grafische Prüfungen
GenExam ist der erste multidisziplinäre Text-zu-Bild-Benchmark-Datensatz im Prüfungsstil, der 2025 vom Shanghai Artificial Intelligence Laboratory, der Shanghai Jiao Tong University, der Tsinghua University und anderen Institutionen veröffentlicht wurde. Die zugehörigen Ergebnisse sind:GenExam: Eine multidisziplinäre Text-zu-Bild-Prüfung“, mit dem Ziel zu testen, ob das Modell Verständnis-, Argumentations- und Generierungsfähigkeiten integrieren kann, um Zeichenprobleme wirklich zu lösen.
Dieser Datensatz enthält rund 1.000 hochwertige Beispiele aus zehn Disziplinen: Mathematik, Physik, Chemie, Biologie, Informatik, Ingenieurwesen, Medizin, Kunst, Geographie und Geschichte. Jedes Beispiel enthält vielfältige und anspruchsvolle Aufgabenstellungen, entsprechende Ground-Truth-Bilder und eine detaillierte Punktevergabe, die den hohen Anforderungen und Schwierigkeitsgrad realer Prüfungen vollumfänglich Rechnung trägt. Der Datensatz wurde in vier Schritten erstellt: Ausgehend von rund 40.000 Bildern, die automatisch von GPT-5 geprüft und mit Aufgaben versehen und anschließend von promovierten Experten gründlich überprüft wurden, entstanden schließlich die oben genannten 1.000 multidisziplinären Beispiele.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.