확실한 정보예요! 한 번의 클릭으로 인기 있는 LLM 중국어 데이터 세트 20개를 받아보세요

다음 기사는 OpenBayes Bayesian Computing의 저자 Xiaobei의 기사입니다.
~부터 채팅GPT 출시 이후,대규모 언어 모델(LLM)은 뛰어난 학습 능력으로 다양한 분야에서 큰 반향을 일으켰습니다.대규모 모델의 학습과 튜닝은 고품질의 대규모 데이터 지원과 분리될 수 없습니다. 신중하게 구성된 데이터 세트는 대규모 모델에 충분한 연료를 제공할 뿐만 아니라, 대규모 모델을 수직 필드에 적용하고 더 나은 성능을 발휘할 수 있게 해줍니다.
이 문서에서는 대규모 모델 학습 및 튜닝에 적합한 일부 인기 있는 중국 공개 데이터 세트를 알파벳 순으로 정리했습니다.모든 사람이 이해하고 사용할 수 있도록.
친절한 팁:
이 기사에 나열된 모든 데이터 세트는 OpenBayes.com 플랫폼에서 클릭 한 번으로 입력하여 모델 학습 및 배포에 직접 사용할 수 있습니다.
직접 링크:
https://openbayes.com/console/public/datasets
1 Ape210K 중국 초등학교 수학 문제
* 발급 기관:노스웨스턴 대학교 원푸다오 AI 연구실
* 관련 태그:산술 작업, 텍스트 생성
* 직접 사용:https://hyper.ai/datasets/28445
Ape210K는 새로운 대규모 템플릿이 풍부한 수학 단어 문제 데이터 세트입니다.21만 개의 중국 초등학교 수준 수학 문제가 포함되어 있습니다.. 각 질문에는 가장 적절한 답변과 답변을 도출하는 데 필요한 방정식이 포함되어 있습니다.
2 벨 데이터셋
* 발급 기관:아이플라이텍, CCL, HFL
* 관련 태그:텍스트 생성, 중국어
* 직접 사용:https://hyper.ai/datasets/28451
이 데이터 세트는 9가지 실제 시나리오를 포괄하여 다양한 모델을 평가하기 위해 1,000개 샘플의 평가 세트를 사용합니다.BELLE 프로젝트에서 생성된 약 350만 개의 중국 명령 데이터가 포함되어 있습니다.
3 중국 분대
중국어 기계 독해 데이터 세트
* 관련 태그:추출형 Q&A, 지능형 Q&A
* 직접 사용:https://hyper.ai/datasets/28476
이 데이터 세트는 V1.1 및 V2.0을 포함하여 원래 Squad에서 기계 번역 및 수동 수정을 거쳐 변환된 중국어 기계 독해 데이터 세트입니다.
4 CMRC 2018 중국어 기계 독해 이해 평가 데이터 세트
* 발급 기관:아이플라이텍, CCL, HFL
* 관련 태그:텍스트 생성
* 직접 사용:https://hyper.ai/datasets/28470
이 데이터 세트에는 제2회 iFlytek Cup 중국어 기계 독해 이해 평가(CMRC 2018)에서 사용된 데이터가 포함되어 있으며, 계산 언어학 분야 최고 국제 학회인 EMNLP 2019에서 승인을 받았습니다.
5 크로스WOZ 작업 지향 대화 데이터 세트
* 발급 기관:칭화대학교, BNRIST
* 관련 태그:질문 답변 데이터 세트, 중국어
* 직접 사용:https://hyper.ai/datasets/28442
CrossWOZ는 최초의 대규모 작업 지향 중국어 크로스 도메인 오즈 마법사 지향 데이터 세트입니다.여기에는 5가지 시나리오(명소, 호텔, 레스토랑, 지하철, 택시)에서 6,000개의 대화와 102,000개의 문장이 포함되어 있습니다. 또한, 코퍼스에는 사용자와 시스템 간의 대화 상태와 대화 동작에 대한 풍부한 주석이 포함되어 있습니다.
6 DRCD 델타 독해 데이터 세트
* 발급 기관:델타 연구 센터, 델타 전자
* 관련 태그:텍스트 감지, 머신 러닝
* 직접 사용:https://hyper.ai/datasets/28473
델타 독해 이해 데이터 세트(DRCD)는 범용 전통 중국어 기계 독해 이해 데이터 세트입니다.이 데이터 세트는 표준 중국어 기계 독해 데이터 세트가 되는 것을 목표로 합니다.2,108개의 위키백과 문서에서 발췌한 10,014개의 문단과 인간 주석자가 생성한 30,000개 이상의 질문이 포함되어 있습니다.
7 두반 대화 코퍼스 두반 대화형 코퍼스
* 발급 기관:베이항대학교, 난카이대학교, MSR
* 관련 태그:질문과 답변 분석, 자연어 처리
* 직접 사용:https://hyper.ai/datasets/28497
이 데이터 세트에는 검색 기반 챗봇을 위한 훈련 데이터 세트, 개발 데이터 세트, 테스트 데이터 세트가 포함되어 있습니다.테스트 데이터에는 1000개의 대화 컨텍스트가 포함되어 있습니다.각 맥락에 대해 10개의 답변이 후보로 만들어졌습니다.
8 듀리더 질문 및 답변 데이터 세트
* 발급 기관:바이두
* 관련 태그:질의응답 데이터세트, 지능형 질의응답
* 직접 사용:https://hyper.ai/datasets/28461
DuReader는 기계 독해 분야에 초점을 맞춘 벤치마크 데이터 세트이자 모델로, 주로 지능형 질의응답 작업에 사용됩니다.
9 E-KAR 중국어 버전 해석 가능한 지식 집약적 유추 추론을 위한 벤치마크
* 발급 기관:복단대학교, 바이트댄스 AI 랩, 브레인 테크놀로지스 주식회사
* 관련 태그:텍스트 생성, 자연어 처리
* 직접 사용:https://hyper.ai/datasets/28517
E-KAR는 Benchmark for Explainable Knowledge-intensive Analogical Reasoning의 약자로, 설명 가능한 지식 집약적 유추 추론을 위한 벤치마크입니다. 기존의 단어 유추 테스트 벤치마크는 신경 모델에서 유추적 추론의 기본 과정을 밝혀낼 수 없습니다. 연구자들은 추론 능력이 있는 모델은 올바른 이유를 기본 신념으로 사용해야 한다고 믿습니다.따라서 우리는 최초의 지식 기반 해석 가능 유추 추론 벤치마크(E-KAR)를 제안합니다.벤치마크 데이터 세트는 공무원 시험에서 출제된 1,655개(중국어)와 1,251개(영어) 문제로 구성되어 있으며, 이를 풀려면 광범위한 배경 지식이 필요합니다.
10 FCGEC 중국어 문법 오류 감지 및 수정 데이터 세트
* 발급 기관:저장대학교, 화웨이
* 관련 태그:텍스트 감지
* 직접 사용:https://hyper.ai/datasets/28512
FCGEC는 중국어 문법 오류 수정을 위한 세분화된 코퍼스(Fine-Grained Corpus for Chinese Grammatical Error Correction)의 약자입니다.모국어 화자의 대규모 다중 참조 텍스트 교정 코퍼스입니다.오류 수정 모델 시스템을 훈련하고 평가하는 데 사용됩니다. 데이터 출처는 주로 초·중·고등학생의 틀린 문장 시험 문제와 뉴스 수집 웹사이트입니다.
11 케이디컨브 중국어 다중 도메인 대화형 데이터 세트
* 발급 기관:칭화대학교
* 관련 태그:텍스트 생성
* 직접 사용:https://hyper.ai/datasets/28507
KdConv는 지식 그래프에서 여러 라운드 대화의 주제를 구축하는 중국어 다중 도메인 지식 기반 대화 데이터 세트입니다. KdConv에는 영화, 음악, 여행의 3개 도메인에서 4,500개의 대화와 86,000개의 발화가 포함되어 있으며 평균 회전 수는 19.0입니다.지식 계획, 지식 기반, 지식 적응 등을 포함하여 다중 턴 인간 대화에서 지식 상호작용을 모델링하는 데 적합합니다.
12 수학23K 수학 단어 데이터 세트
* 발급 기관:텐센트 AI 랩
* 관련 태그:코퍼스, 수학 문제
* 직접 사용:https://hyper.ai/datasets/28504
Math23K는 Math23K for Math Word Problem Solving의 약자로, 수학 단어 문제 해결을 의미합니다.수학 단어 문제를 풀기 위해 만들어진 데이터 세트입니다.인터넷에서 크롤링한 23,162개의 중국어 질문이 포함되어 있습니다.
13 메드다이얼로그 중국 의사-환자 대화 데이터 세트
* 관련 태그:의학 연구, 대화형 데이터 세트
* 직접 사용:https://hyper.ai/datasets/28483
MedDialog는 의사와 환자 간의 110만 건의 대화와 400만 건의 발언을 포함하는 대규모 의료 대화 데이터 세트입니다.
14 오즈콰 오픈 도메인 음성 질의응답 데이터 세트
* 발급 기관:국립대만대학교
* 관련 태그:지능형 질의응답, 자연어 처리
* 직접 사용:https://hyper.ai/datasets/28500
ODSQA 데이터 세트는 중국어 질문에 대한 답변을 위한 구어 데이터 세트입니다.이 강연에는 20명의 발표자가 작성한 3,000개 이상의 질문이 수록되어 있습니다.
15 레드GPT 사실적 대화 데이터 세트를 자동으로 생성합니다.
* 관련 태그:텍스트 생성, 자연어 처리
* 직접 사용:https://hyper.ai/datasets/28448
RedGPT의 전체 이름은 GPT에 의한 Reference-Enlightened-Dialogue이며 GPT를 위한 것입니다. 사실적 정확성은 ChatGPT의 가장 큰 약점입니다. 사실적 정확성을 높이기 위해 대량의 사실적 대화 데이터에 주석을 달아 GPT 모델을 미세 조정할 수 있습니다. 수동 라벨링의 비싼 비용을 피하기 위해,연구진은 사실적 대화를 자동으로 생성하는 방법을 제안하고, 총 50,000개의 중국어 다중 라운드 대화가 포함된 일부 데이터(RedGPT-Dataset-V1-CN)를 공개했습니다.
16 유엔 평행 코퍼스 유엔 병렬 코퍼스 v1.0
* 발급 기관:칭화대학교, BNRIST
* 관련 태그:질문 답변 데이터 세트, 중국어
* 직접 사용:https://hyper.ai/datasets/28464
CrossWOZ는 최초의 대규모 작업 지향 중국어 크로스 도메인 오즈 마법사 지향 데이터 세트입니다.여기에는 5가지 시나리오(명소, 호텔, 레스토랑, 지하철, 택시)에서 6,000개의 대화와 102,000개의 문장이 포함되어 있습니다. 또한, 코퍼스에는 사용자와 시스템 간의 대화 상태와 대화 동작에 대한 풍부한 주석이 포함되어 있습니다.
17 영어: VQA는 영어권 국가입니다. 시각적 질문 답변 데이터 세트
* 관련 태그:시각적 질의응답, 질의응답 데이터세트
* 직접 사용:https://hyper.ai/datasets/28455
딥러닝의 발전으로 다중 모드 학습 관련 과제의 솔루션이 촉진되었습니다. 시각적 질의응답(VQA)은 이미지에서 높은 수준의 장면 해석과 관련 질의응답 언어의 모델링이 필요한 매우 어려운 예입니다.이미지와 이미지에 대한 자연어 질문이 주어졌을 때, 정확한 자연어 답변을 제공하는 것이 과제입니다.이는 Keras를 사용하여 구현된 종단간 시스템으로, 이 작업을 달성하는 것을 목표로 합니다.
18 웹QA v1.0 바이두 중국어 질의응답 데이터세트
* 발급 기관:바이두
* 관련 태그:딥러닝, 지능형 질의응답
* 직접 사용:https://hyper.ai/datasets/28467
이는 바이두가 2016년에 공개한 데이터 세트입니다. 이 데이터는 바이두 노우스(Baidu Knows)에서 나왔습니다. 형식은 기본적으로 동일한 의미를 지닌 여러 개의 기사로 구성된 질문으로, 이를 수동 주석과 브라우저 검색으로 구분합니다.
19 샤추팡 레시피 모음 샤추팡 레시피 모음
* 관련 태그:텍스트 인식, 텍스트 감지
* 직접 사용:https://1lh.cc/4jaL8b
이 요리법 모음에는 1,520,327개의 중국 요리법이 포함되어 있습니다.이 중 1,242,206개의 요리법은 30,060개의 요리에 속합니다. 평균적으로 한 요리에는 41.3개의 요리법이 들어있습니다. 415,272명의 작성자가 요리법을 제공했습니다. 그중 가장 생산적인 작가는 5,394개의 요리법을 업로드했습니다.
* 직접 사용:https://hyper.ai/datasets/28489
20 XQuAD 교차 언어 질의응답 데이터 세트
* 발급 기관:아이플라이텍, CCL, HFL
* 관련 태그:질문과 답변 분석, 독해력
* 직접 사용:https://hyper.ai/datasets/28458
XQuAD(Cross-Lingual Question Answering Dataset)는 언어 간 질문 답변 성능을 평가하기 위한 벤치마크 데이터 세트입니다. 이 데이터 세트는 SQuAD v1.1(Rajpurkar et al., 2016) 개발 세트의 240개 구절과 1,190개 질문-답변 쌍으로 구성되어 있습니다.
위 데이터 세트를 한 번의 클릭으로 입력
풍부한 데이터 세트는 여전히 고품질 컴퓨팅 플랫폼의 지원이 필요합니다. 현재 OpenBayes 베이지안 컴퓨팅 플랫폼은 이미 한 번의 클릭으로 데이터 세트를 바인딩하는 기능을 지원하고 있습니다.컨테이너를 생성하는 동안 키 하나만 입력하세요.대상 데이터 세트를 해당 컨테이너에 바인딩하면 지루한 다운로드 및 업로드 프로세스가 필요 없고 사용자의 개인 저장 공간도 차지하지 않습니다.
비디오 튜토리얼 참조:
[OpenBayes 공식 튜토리얼] 조직 협업_bilibili_bilibili
자세한 내용은 다음을 참조하세요.https://1lh.cc/v2ao4q
또한,OpenBayes 플랫폼은 또한 500개 이상의 선택된 공개 데이터 세트, 모델, 튜토리얼 및 기타 고품질 리소스를 제공합니다.그리고 이는 "공공자원" 모듈에 통합되었습니다.
이제 빠른 바인딩을 경험해보세요. 방문해주세요.