2ヶ月前

VNHSGE: ベトナム高校卒業試験データセットの大規模言語モデル用

Xuan-Quy Dao; Ngoc-Bich Le; The-Duy Vo; Xuan-Dung Phan; Bac-Bien Ngo; Van-Tien Nguyen; Thi-My-Thanh Nguyen; Hong-Phuoc Nguyen
VNHSGE: ベトナム高校卒業試験データセットの大規模言語モデル用
要約

本稿では、大規模言語モデル(LLM)の評価を専門に設計されたVNHSGE(ベトナム高校卒業試験)データセットについて紹介します。このデータセットは9つの科目をカバーしており、ベトナム国立高校卒業試験および類似のテストから生成されました。文学エッセイ300編と、様々なテーマに関する19,000以上の選択肢問題が含まれています。テキストデータと付随する画像を含むことで、質問応答、テキスト生成、読解、視覚的な質問応答など、多様なタスク状況におけるLLMの性能を評価しています。ChatGPTとBingChatを使用して、VNHSGEデータセット上でLLMの性能を評価し、ベトナム学生との成績を比較しました。結果は、文学、英語、歴史、地理、公民教育などの分野でChatGPTとBingChatが人間レベルの性能を示していることを示しています。しかし、数学、物理、化学、生物学などの分野ではまだ改善の余地があります。VNHSGEデータセットはその広範なカバレッジと多様な活動により、LLMの能力評価に適切なベンチマークを提供することを目指しています。このデータセットを科学コミュニティに公開することで、特に数学や自然科学に関連する分野でのLLMの限界解決に焦点を当てた将来のLLM開発促進を目指しています。

VNHSGE: ベトナム高校卒業試験データセットの大規模言語モデル用 | 最新論文 | HyperAI超神経