HyperAIHyperAI

Command Palette

Search for a command to run...

SubLIME:データ効率的なLLM評価のためのランク相関予測によるサブセット選定

Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

概要

大規模言語モデル(LLM)および自然言語処理データセットの急速な拡大により、包括的なベンチマーク評価は計算上非現実的となっている。国際数学オリンピックのような高リスクなコンペティションにおいて、わずか数題の適切な問題がトップパフォーマーを区別できるという知見に着想を得て、本研究では評価コストを80~99%削減しつつもランクの忠実性を維持する「SubLIME」を提案する。SubLIMEは、わずか5~20のアンカーLLMからの限られたパフォーマンスデータと、データセットの固有指標(難易度、品質、分布の分散性)を統合したランク相関予測(Rank Correlation Prediction: RCP)モデルを学習する。この予測結果をもとに、新しいLLMの評価に適した「勝者候補サブセット」(全データの1~20%)を効果的に選定する。その結果、10の多様なベンチマークにおいて、他のデータ効率型手法と比較して、より優れたグローバルランクの保持が可能となった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています