VNHSGE : Jeu de données du diplôme du baccalauréat vietnamien pour les grands modèles linguistiques

Dans cet article, nous présentons le jeu de données VNHSGE (VietNamese High School Graduation Examination), développé exclusivement pour évaluer les grands modèles linguistiques (LLMs). Ce jeu de données, qui couvre neuf matières, a été généré à partir de l'Examen National du Baccalauréat au Vietnam et des tests comparables. Il comprend 300 essais littéraires et plus de 19 000 questions à choix multiples sur une variété de sujets. Le VNHSGE évalue les LLMs dans des situations multitâches telles que la réponse aux questions, la génération de texte, la compréhension de lecture, la réponse aux questions visuelles et d'autres tâches en incluant à la fois des données textuelles et des images accompagnantes.Nous avons évalué les performances des LLMs sur le jeu de données VNHSGE en utilisant ChatGPT et BingChat, et nous avons comparé leurs résultats avec ceux des étudiants vietnamiens afin de mesurer leur niveau. Les résultats montrent que ChatGPT et BingChat atteignent un niveau humain dans plusieurs domaines, notamment la littérature, l'anglais, l'histoire, la géographie et l'éducation civique. Cependant, il reste encore des marges de progression, particulièrement dans les domaines des mathématiques, de la physique, de la chimie et de la biologie.Le VNHSGE vise à fournir un benchmark adéquat pour évaluer les capacités des LLMs grâce à sa couverture extensive et sa diversité d'activités. Nous prévoyons de promouvoir les futures avancées dans le développement des LLMs en mettant ce jeu de données à disposition de la communauté scientifique, notamment pour résoudre les limites des LLMs dans les disciplines impliquant les mathématiques et les sciences naturelles.