このデータセットは、大規模言語モデル (LLM) の長いコンテキスト理解能力をテストおよび評価するために、北京総合人工知能研究所 (Tongyan Institute と呼ばれる) と北京大学人工知能研究所によって提案されたベンチマーク データ セット - LooGLE - です。 )。
LooGLE は、最も一般的な 9 つの長文 LLM を評価し、これらのモデルは、複数の情報の取得、時間の並べ替え、計算、依存関係の長い複雑なタスクにおける理解と推論の機能の点で楽観的ではないことを発見しました。商用モデル (Claude3-200k、GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex) の平均精度はわずか 40% ですが、オープンソース モデル (ChatGLM2-6B、LongLLaMa-3B、RWKV-4-) 14Bパイル、LLaMA-7B-32K)精度は10%のみ。
論文「LooGLE: Can Long-Context Language Models Understand Long Contexts?」が ACL2024 に採択されました。論文の共著者は総合研究所の Li Jiaqi 氏と Wang Mengmeng 氏です。責任著者は Zheng Zilong 氏です。総合研究所の張夢漢助教授、北京大学助教授。
LooGLE は、非常に長いテキストを提供し、比較的最近のドキュメントを使用し、非常に長い依存関係を持つ慎重に設計され注釈が付けられたタスクなどの利点を提供することで、以前のデータセットの欠点を解決します。 LooGLE ベンチマーク データセットの開始は、長文 LLM を評価および改善するための新しいツールを提供するだけでなく、人工知能言語処理テクノロジの開発に新しい方向性を提供します。
做种 1
下载中 0
已完成 27
总下载 70