2ヶ月前

SubLIME：データ効率的なLLM評価のためのランク相関予測によるサブセット選定

Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

要約

大規模言語モデル（LLM）および自然言語処理データセットの急速な拡大により、包括的なベンチマーク評価は計算上非現実的となっている。国際数学オリンピックのような高リスクなコンペティションにおいて、わずか数題の適切な問題がトップパフォーマーを区別できるという知見に着想を得て、本研究では評価コストを80～99％削減しつつもランクの忠実性を維持する「SubLIME」を提案する。SubLIMEは、わずか5～20のアンカーLLMからの限られたパフォーマンスデータと、データセットの固有指標（難易度、品質、分布の分散性）を統合したランク相関予測（Rank Correlation Prediction: RCP）モデルを学習する。この予測結果をもとに、新しいLLMの評価に適した「勝者候補サブセット」（全データの1～20％）を効果的に選定する。その結果、10の多様なベンチマークにおいて、他のデータ効率型手法と比較して、より優れたグローバルランクの保持が可能となった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

SubLIME：データ効率的なLLM評価のためのランク相関予測によるサブセット選定

Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

要約

AI で AI を構築

Hyper Newsletters