HyperAIHyperAI

Command Palette

Search for a command to run...

REST: 複数の問題を一度に提示することで大規模推論モデルのストレステストを行う

Zhuoshi Pan Qizhi Pei Yu Li Qiyao Sun Zinan Tang H. Vicky Zhao Conghui He Lijun Wu

概要

最近の大型推論モデル(LRMs)は、タスク固有のベンチマークにおいて著しい進歩を遂げていますが、それらの評価方法は依然として孤立した問題解決パラダイムに制約されています。既存のベンチマークは主に単一の質問に対する推論を連続的なテストによって評価しており、これには重大な限界があります:(1) データ汚染への脆弱性と課題の難易度不足(例:DeepSeek-R1はMATH500で97.0%の精度を達成)、これにより新たな質問を作成するための人間による多大な労力と費用が必要となり、(2) 複数コンテキスト下でのモデル評価が不十分であるという点です。これは実世界での展開における重要な要件です。このギャップを埋めるために、我々はREST(Reasoning Evaluation through Simultaneous Testing)を提案します。RESTは、複数の問題に同時に曝露される形でLAMsを評価するストレステストフレームワークです。基本的な推論能力だけでなく、RESTは特に以下の未十分に評価されてきた能力を検証します:コンテキスト優先度割り当て、問題間干渉抵抗性、および動的な認知負荷管理。我々の評価ではいくつかの驚くべき結果が明らかになりました:最新鋭モデル(SOTA)であるDeepSeek-R1であっても、ストレステスト下では大幅な性能低下が見られました。特に重要的是、RESTは既存のベンチマークよりも強い識別力を示し、単一質問評価では類似した高精度を示すモデル間でも顕著な性能差を明らかにしました。分析から得られた主要なメカニズム的洞察としては:(1) 「過思考トラップ」が性能低下の一因であることが確認されました;(2) 「long2short」技術で訓練されたモデルはREST下でも単一問題での性能をより保ち、標準的に訓練されたモデルよりも優れた結果を示しました。これらの結果により、RESTはコスト効率が高く将来性のある評価パラダイムとして確立され、実世界での推論要求をより正確に反映しながら継続的な人間によるアノテーションへの依存度を低減することが期待されます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
REST: 複数の問題を一度に提示することで大規模推論モデルのストレステストを行う | 記事 | HyperAI超神経