HyperAIHyperAI

Command Palette

Search for a command to run...

階層的プロンプト分類法:大規模言語モデルに対するユニバーサル評価フレームワーク

Devichand Budagam Sankalp KJ Ashutosh Kumar Vinija Jain Aman Chadha

概要

大規模言語モデル(LLM)が多様なタスクに対応する際の効果を評価することは、その強みと弱みを理解する上で不可欠である。従来の評価手法は、データセット全体に一様に同一のプロンプト戦略を適用するため、タスクの複雑さの違いを考慮していない。本研究では、5つの異なるプロンプト戦略(単純から複雑へと階層的に配置)から構成される階層的プロンプトフレームワーク(HPF)を用いる階層的プロンプト分類体系(HPT)を提案する。これにより、LLMの評価をより正確に行い、タスク解決能力に関する明確な視点を提供する。この分類体系は、データセットおよびLLMに対して「階層的プロンプトスコア(HPスコア)」と呼ばれるスコアを付与する。これにより、多様なタスクに対する処理能力の微細な理解が可能となり、タスクの複雑さを普遍的に測定する指標としての役割を果たす。さらに、各タスクに適したプロンプト戦略を自動選択する「適応的階層的プロンプトフレームワーク」も導入している。本研究では、Llama 3 8B、Phi 3 3.8B、Mistral 7B、Gemma 7B の4つの指令チューニング済みLLMを用い、BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)、SamSum の4つのデータセットにおいて、手動による階層的プロンプトフレームワークと適応的フレームワークを比較検証した。実験の結果、HPTの有効性が実証され、異なるタスク間およびLLMの能力間を信頼性高く比較する手段が提供された。本研究は、データセットの複雑さとLLMの能力を評価するための普遍的な評価指標の開発につながる。また、手動型HPFおよび適応型HPFの実装コードは公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています