HyperAIHyperAI
vor 2 Monaten

VNHSGE: Datensatz zur Abschlussprüfung für vietnamesische Highschool-Schüler für große Sprachmodelle

Xuan-Quy Dao; Ngoc-Bich Le; The-Duy Vo; Xuan-Dung Phan; Bac-Bien Ngo; Van-Tien Nguyen; Thi-My-Thanh Nguyen; Hong-Phuoc Nguyen
VNHSGE: Datensatz zur Abschlussprüfung für vietnamesische Highschool-Schüler für große Sprachmodelle
Abstract

In diesem Artikel wird der VNHSGE-Datensatz (VietNamese High School Graduation Examination) vorgestellt, der ausschließlich zur Bewertung großer Sprachmodelle (LLMs) entwickelt wurde. Der Datensatz, der neun Fächer abdeckt, wurde aus dem vietnamesischen Nationalen Abschlussprüfung für die Oberstufe und vergleichbaren Tests generiert. Er enthält 300 literarische Aufsätze sowie über 19.000 Multiple-Choice-Fragen zu verschiedenen Themen. Durch die Einbeziehung sowohl textbasierter Daten als auch begleitender Bilder bewertet der Datensatz die Leistungsfähigkeit von LLMs in Multitasking-Situationen wie Fragenbeantwortung, Textgenerierung, Leseverständnis, visuelle Fragenbeantwortung und mehr.Wir haben die LLMs mit ChatGPT und BingChat auf dem VNHSGE-Datensatz evaluiert und ihre Leistungen mit denen von vietnamesischen Schülern verglichen, um deren Performance zu analysieren. Die Ergebnisse zeigen, dass ChatGPT und BingChat in mehreren Bereichen, darunter Literatur, Englisch, Geschichte, Geografie und politische Bildung (civics education), auf menschlichem Niveau performen. Es gibt jedoch noch Verbesserungspotenzial, insbesondere in den Bereichen Mathematik, Physik, Chemie und Biologie. Der VNHSGE-Datensatz strebt an, durch seine breite Abdeckung und Vielfalt an Aktivitäten einen angemessenen Maßstab für die Bewertung der Fähigkeiten von LLMs bereitzustellen. Wir beabsichtigen, zukünftige Fortschritte bei der Entwicklung von LLMs zu fördern, indem wir diesen Datensatz der wissenschaftlichen Gemeinschaft zur Verfügung stellen, insbesondere im Hinblick auf die Überwindung der Grenzen von LLMs in mathematisch-naturwissenschaftlichen Disziplinen.