Command Palette

Search for a command to run...

1ヶ月前

SAGE:意味理解のための現実的なベンチマーク

Samarth Goel Reagan J. Lee Kannan Ramchandran

SAGE:意味理解のための現実的なベンチマーク

要約

大規模言語モデル(LLM)が従来のベンチマークにおいて優れた性能を発揮する一方で、意味理解のより深い側面を検証できる、より挑戦的な評価フレームワークの導入が急務となっている。本研究では、埋め込みモデルおよび類似度メトリクスの性能を、人間の好みとの整合性、変換耐性、情報感受性、クラスタリング性能、検索耐性の5つのカテゴリにわたり評価するための厳密なベンチマーク「SAGE(Semantic Alignment & Generalization Evaluation)」を提案する。既存のベンチマークが個別の能力に焦点を当てるのに対し、SAGEは30以上のデータセットを対象に、敵対的状況、ノイズを含む変換、および微細な人間判断タスクを通じて、意味理解の能力を総合的に評価する。9種類の埋め込みモデルおよび従来の類似度メトリクスを包括的に評価した結果、どのアプローチもすべての次元で優れた性能を発揮しているわけではないことが明らかになった。例えば、OpenAIのtext-embedding-3-largeといった最先端の埋め込みモデルは、人間の好みとの整合性において顕著な優位性を示し(0.682 vs. 最も優れた従来メトリクスの0.591)、一方で情報感受性タスクでは、Jaccard類似度が0.905というスコアを記録するのに対し、最良の埋め込みモデルでも0.794にとどまり、古典的メトリクスに大きく劣っている。さらにSAGEは、重要なトレードオフの存在を明らかにした。OpenAIのtext-embedding-3-smallはクラスタリング性能で最高スコア(0.483)を記録したものの、耐性スコアは最低水準(0.011)にとどまり、極めて脆さを示した。本研究により、現行の意味理解能力における根本的な限界が浮き彫りとなり、実世界での展開に向けたモデルの耐性をより現実的かつ厳密に評価するための新たな基準が提供された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SAGE:意味理解のための現実的なベンチマーク | 論文 | HyperAI超神経