Command Palette
Search for a command to run...
Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

要約
大規模言語モデル(LLM)および自然言語処理データセットの急速な拡大により、包括的なベンチマーク評価は計算上非現実的となっている。国際数学オリンピックのような高リスクなコンペティションにおいて、わずか数題の適切な問題がトップパフォーマーを区別できるという知見に着想を得て、本研究では評価コストを80~99%削減しつつもランクの忠実性を維持する「SubLIME」を提案する。SubLIMEは、わずか5~20のアンカーLLMからの限られたパフォーマンスデータと、データセットの固有指標(難易度、品質、分布の分散性)を統合したランク相関予測(Rank Correlation Prediction: RCP)モデルを学習する。この予測結果をもとに、新しいLLMの評価に適した「勝者候補サブセット」(全データの1~20%)を効果的に選定する。その結果、10の多様なベンチマークにおいて、他のデータ効率型手法と比較して、より優れたグローバルランクの保持が可能となった。