날짜

6달 전

조직

Paper URL

2602.03587

라이선스

Other

태그

LLM

텍스트 생성

기준

CL-bench는 대규모 언어 모델의 문맥 학습 능력을 평가하기 위한 벤치마크 데이터셋으로, 2026년 텐센트의 훈위안 팀이 푸단대학교와 협력하여 출시했습니다. 관련 연구 논문은 다음과 같습니다. CL-bench: 컨텍스트 학습을 위한 벤치마크목표는 모델이 사전 학습된 지식에 의존하지 않고 주어진 맥락에서 새로운 규칙, 개념 또는 도메인 지식을 학습하고 이를 후속 작업에 적용할 수 있는지 여부를 테스트하는 것입니다. 이 데이터셋은 1,899개의 구체적인 과제를 포괄하는 500개의 복잡한 맥락 시나리오와 31,607개의 세분화된 평가 기준표를 포함합니다. 각 과제는 다중 턴 대화 형식으로 구성되어 있으며, 규칙 추론, 도메인 지식 학습, 복잡한 지시 이해 등 다양한 맥락 학습 시나리오를 다루어 모델이 맥락 속에서 새로운 정보를 이해하고, 요약하고, 전달하는 능력을 평가합니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 데이터셋 사용 Discord에서 논의하기

날짜

6달 전

조직

Paper URL

2602.03587

라이선스

Other

태그

LLM

텍스트 생성

기준

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

CL-bench 컨텍스트 학습 평가 벤치마크 데이터셋

AI로 AI 구축

HyperAI Newsletters

Command Palette

CL-bench 컨텍스트 학습 평가 벤치마크 데이터셋

undefined

DRACO 학제간 심층 연구 벤치마크 데이터셋

네모트론 페르소나 프랑스 (프랑스어 합성 페르소나 데이터셋)

Groundsource 글로벌 홍수 발생 데이터 세트

CHIMERA 일반 추론 합성 데이터 세트

Open-RL 추론 문제 데이터셋

범암 scRNA-Seq 암 단일세포 전사 아틀라스 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

Nemotron-Personas-Brazil 브라질 합성 캐릭터 데이터셋

RoVid-X 로봇 비디오 생성 데이터 세트

구글 스트리트뷰 내셔널 스트리트뷰 이미지 데이터 세트

DeepPlanning 장기 계획 역량 평가 데이터 세트

차량 OpenImages 차량 이미지 데이터셋

LightOnOCR-mix-0126 텍스트 전사 데이터 세트

Nemotron-Math-v2 수학적 추론 데이터셋

인간 얼굴 감정 데이터셋

GroundingME 복합 장면 이해 평가 데이터 세트

MCIF 다중모드 다국어 교육 데이터셋

X선 밀수품 탐지 데이터 세트

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

Command Palette

CL-bench 컨텍스트 학습 평가 벤치마크 데이터셋

undefined

DRACO 학제간 심층 연구 벤치마크 데이터셋

네모트론 페르소나 프랑스 (프랑스어 합성 페르소나 데이터셋)

Groundsource 글로벌 홍수 발생 데이터 세트

CHIMERA 일반 추론 합성 데이터 세트

Open-RL 추론 문제 데이터셋

범암 scRNA-Seq 암 단일세포 전사 아틀라스 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

Nemotron-Personas-Brazil 브라질 합성 캐릭터 데이터셋

RoVid-X 로봇 비디오 생성 데이터 세트

구글 스트리트뷰 내셔널 스트리트뷰 이미지 데이터 세트

DeepPlanning 장기 계획 역량 평가 데이터 세트

차량 OpenImages 차량 이미지 데이터셋

LightOnOCR-mix-0126 텍스트 전사 데이터 세트

Nemotron-Math-v2 수학적 추론 데이터셋

인간 얼굴 감정 데이터셋

GroundingME 복합 장면 이해 평가 데이터 세트

MCIF 다중모드 다국어 교육 데이터셋

X선 밀수품 탐지 데이터 세트

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

AI로 AI 구축

HyperAI Newsletters

undefined

DRACO 학제간 심층 연구 벤치마크 데이터셋

네모트론 페르소나 프랑스 (프랑스어 합성 페르소나 데이터셋)

Groundsource 글로벌 홍수 발생 데이터 세트

CHIMERA 일반 추론 합성 데이터 세트

Open-RL 추론 문제 데이터셋

범암 scRNA-Seq 암 단일세포 전사 아틀라스 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트

Nemotron-Personas-Brazil 브라질 합성 캐릭터 데이터셋

RoVid-X 로봇 비디오 생성 데이터 세트

구글 스트리트뷰 내셔널 스트리트뷰 이미지 데이터 세트

DeepPlanning 장기 계획 역량 평가 데이터 세트

차량 OpenImages 차량 이미지 데이터셋

LightOnOCR-mix-0126 텍스트 전사 데이터 세트

Nemotron-Math-v2 수학적 추론 데이터셋

인간 얼굴 감정 데이터셋

GroundingME 복합 장면 이해 평가 데이터 세트

MCIF 다중모드 다국어 교육 데이터셋

X선 밀수품 탐지 데이터 세트

LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

undefined

DRACO 학제간 심층 연구 벤치마크 데이터셋

네모트론 페르소나 프랑스 (프랑스어 합성 페르소나 데이터셋)

Groundsource 글로벌 홍수 발생 데이터 세트

CHIMERA 일반 추론 합성 데이터 세트

Open-RL 추론 문제 데이터셋

범암 scRNA-Seq 암 단일세포 전사 아틀라스 데이터셋

RubricHub_v1 다중 도메인 생성 작업 데이터 세트