CLIcK 한국 문화 및 언어 지능 데이터 세트
CLIcK 데이터 세트는 한국과학기술원에서 대규모 한국어 모델의 문화적, 언어적 지식 평가의 격차를 메우기 위해 만들어졌습니다. 이 데이터 세트에는 공식 한국어 시험과 교과서에서 발췌한 1,995쌍의 질문-답변 샘플이 포함되어 있으며, 언어와 문화라는 두 가지 주요 범주를 다루며, 이 범주는 11개의 하위 범주로 나뉩니다. 각 샘플에는 질문에 답하는 데 필요한 문화적, 언어적 지식을 나타내는 세부적인 주석이 제공됩니다.
연구팀은 공식 허가를 받아 한국어 시험 문제 6개와 교과서에서 문제를 추출하고, GPT-4를 사용해 새로운 문제를 생성하여 콘텐츠의 독창성과 문화적 관련성을 보장했습니다. 엄격한 수동 검토와 분류를 거쳐, CLIcK은 마침내 고품질 한국어 평가 벤치마크를 형성했습니다. 이 데이터 세트는 한국어 언어 모델의 문화적, 언어적 이해 능력을 평가하는 중요한 벤치마크로서, 관련 분야의 연구를 촉진하는 데 견고한 데이터 지원을 제공합니다.
CLIcK-korea.torrent
시딩 1다운로드 중 1완료됨 49총 다운로드 횟수 43