ChemData 화학 작업 데이터 세트
* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
데이터 세트 소개
이 데이터 세트는 2024년 상하이 인공지능 연구소에서 최초의 과학적 빅 모델인 푸커 화학 빅 모델(ChemLLM)과 함께 오픈 소스로 공개되었습니다. 관련 논문 결과는 "ChemLM: 화학 대규모 언어 모델".
데이터 세트에는 주로 ChemData700K가 포함되어 있습니다. 연구팀은 또한 ChemBench-4K, ChemPref-10K 및 C-MHChem 데이터 세트의 중국어와 영어 버전을 오픈 소스로 공개했습니다.
ChemData700K 데이터 세트
ChemData700K는 9가지 핵심 화학 과제와 73만 개의 고품질 질문과 답변을 포함하고 있으며, 700만 개의 데이터 중 1/10에서 샘플링된 대규모 언어 모델 화학 기능 지침 미세 조정 데이터 세트입니다. 이 데이터 세트는 광범위한 화학 도메인 지식을 포괄하며 3가지 주요 작업 범주(분자, 반응, 도메인)로 구분됩니다.
ChemBench4K 벤치마크 데이터 세트
ChemBench는 화학 분자와 반응에 대한 9가지 작업으로 구성된 혁신적인 벤치마크입니다. 이 9가지 작업은 ChemData의 작업과 동일합니다. 이 벤치마크는 LLM 화학의 능력을 객관적으로 측정하는 기준을 제공합니다. ChemBench에는 정답이 하나인 객관식 문제 4,100개가 포함되어 있습니다.
ChemPref-10K 데이터 세트
이 데이터 세트는 인간의 선호도에 맞춰 언어 모델을 최적화하는 데 사용될 수 있으며 영어와 중국어 버전이 모두 포함되어 있습니다.
C-MHChem 데이터 세트
C-MHChem은 지난 25년 동안 중국 각지의 중학교, 고등학교, 대학 입학 시험에서 수집한 600개의 문제로 구성된, 완전히 수작업으로 작성된 고품질의 객관식 시험 벤치마크입니다.