HyperAIHyperAI

Command Palette

Search for a command to run...

CL-bench 컨텍스트 학습 평가 벤치마크 데이터셋

날짜

4달 전

조직

复旦大学

Paper URL

2602.03587

라이선스

Other

CL-bench는 대규모 언어 모델의 문맥 학습 능력을 평가하기 위한 벤치마크 데이터셋으로, 2026년 텐센트의 훈위안 팀이 푸단대학교와 협력하여 출시했습니다. 관련 연구 논문은 다음과 같습니다. CL-bench: 컨텍스트 학습을 위한 벤치마크목표는 모델이 사전 학습된 지식에 의존하지 않고 주어진 맥락에서 새로운 규칙, 개념 또는 도메인 지식을 학습하고 이를 후속 작업에 적용할 수 있는지 여부를 테스트하는 것입니다. 이 데이터셋은 1,899개의 구체적인 과제를 포괄하는 500개의 복잡한 맥락 시나리오와 31,607개의 세분화된 평가 기준표를 포함합니다. 각 과제는 다중 턴 대화 형식으로 구성되어 있으며, 규칙 추론, 도메인 지식 학습, 복잡한 지시 이해 등 다양한 맥락 학습 시나리오를 다루어 모델이 맥락 속에서 새로운 정보를 이해하고, 요약하고, 전달하는 능력을 평가합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
CL-bench 컨텍스트 학습 평가 벤치마크 데이터셋 | 데이터 세트 | HyperAI초신경