11日前

階層的プロンプト分類法:大規模言語モデルに対するユニバーサル評価フレームワーク

Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
階層的プロンプト分類法:大規模言語モデルに対するユニバーサル評価フレームワーク
要約

大規模言語モデル(LLM)が多様なタスクに対応する際の効果を評価することは、その強みと弱みを理解する上で不可欠である。従来の評価手法は、データセット全体に一様に同一のプロンプト戦略を適用するため、タスクの複雑さの違いを考慮していない。本研究では、5つの異なるプロンプト戦略(単純から複雑へと階層的に配置)から構成される階層的プロンプトフレームワーク(HPF)を用いる階層的プロンプト分類体系(HPT)を提案する。これにより、LLMの評価をより正確に行い、タスク解決能力に関する明確な視点を提供する。この分類体系は、データセットおよびLLMに対して「階層的プロンプトスコア(HPスコア)」と呼ばれるスコアを付与する。これにより、多様なタスクに対する処理能力の微細な理解が可能となり、タスクの複雑さを普遍的に測定する指標としての役割を果たす。さらに、各タスクに適したプロンプト戦略を自動選択する「適応的階層的プロンプトフレームワーク」も導入している。本研究では、Llama 3 8B、Phi 3 3.8B、Mistral 7B、Gemma 7B の4つの指令チューニング済みLLMを用い、BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)、SamSum の4つのデータセットにおいて、手動による階層的プロンプトフレームワークと適応的フレームワークを比較検証した。実験の結果、HPTの有効性が実証され、異なるタスク間およびLLMの能力間を信頼性高く比較する手段が提供された。本研究は、データセットの複雑さとLLMの能力を評価するための普遍的な評価指標の開発につながる。また、手動型HPFおよび適応型HPFの実装コードは公開されている。

階層的プロンプト分類法:大規模言語モデルに対するユニバーサル評価フレームワーク | 最新論文 | HyperAI超神経