Command Palette
Search for a command to run...
LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트
LongBench-Pro는 장문 문맥 언어 모델 평가를 위해 2025년에 공개된 데이터셋입니다. 이 데이터셋은 다양한 문맥 길이, 작업 유형 및 운영 조건에서 모델이 장문 텍스트를 이해하고 처리하는 능력을 체계적으로 평가하는 것을 목표로 합니다. 이 데이터셋은 1,500개의 샘플로 구성되어 있으며, 레벨 1 작업 11개와 레벨 2 작업 25개를 포함합니다. 작업은 문맥 사용 여부에 따라 전체 문맥 작업과 부분 문맥 작업으로 분류됩니다. 영어 및 중국어 샘플이 모두 포함되어 있으며, 영어와 중국어 데이터의 분포는 균형적입니다. 작업 난이도는 쉬움, 중간, 어려움, 매우 어려움의 네 단계로 분류됩니다. 문맥 길이는 8,000개 토큰부터 256,000개 토큰까지 6가지 범위로 고르게 분포되어 있습니다.