HyperAIHyperAI

Command Palette

Search for a command to run...

LooGLE の長いコンテキスト理解能力ベンチマーク データセット

Date

2年前

Size

80.66 MB

Organization

Paper URL

arxiv.org

Featured Image

このデータセットは、大規模言語モデル (LLM) の長いコンテキスト理解能力をテストおよび評価するために、北京総合人工知能研究所 (Tongyan Institute と呼ばれる) と北京大学人工知能研究所によって提案されたベンチマーク データ セット - LooGLE - です。 )。

LooGLE は、最も一般的な 9 つの長文 LLM を評価し、これらのモデルは、複数の情報の取得、時間の並べ替え、計算、依存関係の長い複雑なタスクにおける理解と推論の機能の点で楽観的ではないことを発見しました。商用モデル (Claude3-200k、GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex) の平均精度はわずか 40% ですが、オープンソース モデル (ChatGLM2-6B、LongLLaMa-3B、RWKV-4-) 14Bパイル、LLaMA-7B-32K)精度は10%のみ。

この研究論文のタイトルは「LooGLE: ロングコンテキスト言語モデルは長いコンテキストを理解できますか?この論文はACL2024に採択されました。共同筆頭著者は通信情報技術研究所の李佳琦氏と王孟孟氏、責任著者は通信情報技術研究所研究員の鄭子龍氏と北京大学助教授の張牧漢氏です。

LooGLE は、非常に長いテキストを提供し、比較的最近のドキュメントを使用し、非常に長い依存関係を持つ慎重に設計され注釈が付けられたタスクなどの利点を提供することで、以前のデータセットの欠点を解決します。 LooGLE ベンチマーク データセットの開始は、長文 LLM を評価および改善するための新しいツールを提供するだけでなく、人工知能言語処理テクノロジの開発に新しい方向性を提供します。

LooGLE.torrent
Seeding 1Downloading 0Completed 204Total Downloads 294
  • LooGLE/
    • README.md
      2.01 KB
    • README.txt
      4.02 KB
      • data/
        • LooGLE.zip
          80.66 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています