8ヶ月前

データセット

視覚質問応答

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Xuan-Quy Dao Ngoc-Bich Le The-Duy Vo Xuan-Dung Phan Bac-Bien Ngo Van-Tien Nguyen Thi-My-Thanh Nguyen Hong-Phuoc Nguyen

概要

本稿では、大規模言語モデル（LLM）の評価を専門に設計されたVNHSGE（ベトナム高校卒業試験）データセットについて紹介します。このデータセットは9つの科目をカバーしており、ベトナム国立高校卒業試験および類似のテストから生成されました。文学エッセイ300編と、様々なテーマに関する19,000以上の選択肢問題が含まれています。テキストデータと付随する画像を含むことで、質問応答、テキスト生成、読解、視覚的な質問応答など、多様なタスク状況におけるLLMの性能を評価しています。ChatGPTとBingChatを使用して、VNHSGEデータセット上でLLMの性能を評価し、ベトナム学生との成績を比較しました。結果は、文学、英語、歴史、地理、公民教育などの分野でChatGPTとBingChatが人間レベルの性能を示していることを示しています。しかし、数学、物理、化学、生物学などの分野ではまだ改善の余地があります。VNHSGEデータセットはその広範なカバレッジと多様な活動により、LLMの能力評価に適切なベンチマークを提供することを目指しています。このデータセットを科学コミュニティに公開することで、特に数学や自然科学に関連する分野でのLLMの限界解決に焦点を当てた将来のLLM開発促進を目指しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

データセット

視覚質問応答

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Xuan-Quy Dao Ngoc-Bich Le The-Duy Vo Xuan-Dung Phan Bac-Bien Ngo Van-Tien Nguyen Thi-My-Thanh Nguyen Hong-Phuoc Nguyen

概要

本稿では、大規模言語モデル（LLM）の評価を専門に設計されたVNHSGE（ベトナム高校卒業試験）データセットについて紹介します。このデータセットは9つの科目をカバーしており、ベトナム国立高校卒業試験および類似のテストから生成されました。文学エッセイ300編と、様々なテーマに関する19,000以上の選択肢問題が含まれています。テキストデータと付随する画像を含むことで、質問応答、テキスト生成、読解、視覚的な質問応答など、多様なタスク状況におけるLLMの性能を評価しています。ChatGPTとBingChatを使用して、VNHSGEデータセット上でLLMの性能を評価し、ベトナム学生との成績を比較しました。結果は、文学、英語、歴史、地理、公民教育などの分野でChatGPTとBingChatが人間レベルの性能を示していることを示しています。しかし、数学、物理、化学、生物学などの分野ではまだ改善の余地があります。VNHSGEデータセットはその広範なカバレッジと多様な活動により、LLMの能力評価に適切なベンチマークを提供することを目指しています。このデータセットを科学コミュニティに公開することで、特に数学や自然科学に関連する分野でのLLMの限界解決に焦点を当てた将来のLLM開発促進を目指しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています