Command Palette
Search for a command to run...
LongBench-Pro ロングコンテキスト包括的評価データセット
LongBench-Proは、長文文脈言語モデルを評価するために2025年にリリースされたデータセットです。このデータセットは、異なるコンテキストの長さ、タスクの種類、動作条件下における長文テキストの理解と処理におけるモデルの能力を体系的に評価することを目的としています。
このデータセットには、レベル1タスク11件とレベル2タスク25件を含む1,500件のサンプルが含まれています。タスクは、コンテキストの使用頻度に基づいて、フルコンテキストタスクと部分コンテキストタスクに分類されます。英語と中国語の両方のサンプルが含まれており、英語と中国語のデータがバランスよく分散されています。タスクの難易度は、「簡単」、「中」、「難しい」、「最高」の4段階に分類されています。コンテキストの長さに関しては、サンプルは8kトークンから256kトークンまでの6つの長さの範囲をカバーし、均等に分散されています。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.