2 个月前

VNHSGE:越南高中毕业考试数据集用于大型语言模型

Xuan-Quy Dao; Ngoc-Bich Le; The-Duy Vo; Xuan-Dung Phan; Bac-Bien Ngo; Van-Tien Nguyen; Thi-My-Thanh Nguyen; Hong-Phuoc Nguyen
VNHSGE:越南高中毕业考试数据集用于大型语言模型
摘要

本文介绍了一种专门为评估大型语言模型(LLMs)而开发的数据集——越南高中毕业考试数据集(VNHSGE)。该数据集涵盖了九个科目,来源于越南国家高中毕业考试及相关测试。数据集中包含了300篇文学作文和超过19,000道选择题,涉及多个主题。通过包含文本数据和配套图像,该数据集在多任务情境下评估大型语言模型的表现,如问答、文本生成、阅读理解、视觉问答等。我们使用ChatGPT和BingChat对VNHSGE数据集进行了评估,并将其表现与越南学生的成绩进行了对比,以检验其性能。结果显示,ChatGPT和BingChat在文学、英语、历史、地理和公民教育等多个领域达到了人类水平的表现。然而,在数学、物理、化学和生物等领域,它们仍有提升的空间。VNHSGE数据集旨在通过其广泛的覆盖范围和多样化的任务类型,为评估大型语言模型的能力提供一个合适的基准。我们计划通过向科学界开放这一数据集,促进未来大型语言模型的发展,特别是在解决数学和自然科学领域的局限性方面。