Command Palette
Search for a command to run...
CL-bench 컨텍스트 학습 평가 벤치마크 데이터셋
CL-bench는 대규모 언어 모델의 문맥 학습 능력을 평가하기 위한 벤치마크 데이터셋으로, 2026년 텐센트의 훈위안 팀이 푸단대학교와 협력하여 출시했습니다. 관련 연구 논문은 다음과 같습니다. CL-bench: 컨텍스트 학습을 위한 벤치마크목표는 모델이 사전 학습된 지식에 의존하지 않고 주어진 맥락에서 새로운 규칙, 개념 또는 도메인 지식을 학습하고 이를 후속 작업에 적용할 수 있는지 여부를 테스트하는 것입니다. 이 데이터셋은 1,899개의 구체적인 과제를 포괄하는 500개의 복잡한 맥락 시나리오와 31,607개의 세분화된 평가 기준표를 포함합니다. 각 과제는 다중 턴 대화 형식으로 구성되어 있으며, 규칙 추론, 도메인 지식 학습, 복잡한 지시 이해 등 다양한 맥락 학습 시나리오를 다루어 모델이 맥락 속에서 새로운 정보를 이해하고, 요약하고, 전달하는 능력을 평가합니다.