HyperAI초신경

ChemBench4K 화학 능력 평가 벤치마크 데이터 세트

날짜

10달 전

크기

509.65 KB

기관

상하이 인공 지능 연구소

발행 주소

huggingface.co

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

이 데이터 세트는 2024년 상하이 인공지능 연구소에서 최초의 과학적 빅 모델인 푸커 화학 빅 모델(ChemLLM)과 함께 오픈 소스로 공개되었습니다. 관련 논문 결과는 "ChemLM: 화학 대규모 언어 모델".

데이터 세트에는 주로 ChemBench-4K가 포함되며 연구팀은 또한 오픈 소스로 공개했습니다. ChemData700K, ChemPref-10K 및 C-MHChem 데이터 세트의 중국어 및 영어 버전.

배경

대규모 화학 성능 벤치마킹 대부분의 기존 화학 작업 성능 벤치마크는 MoleculeNet과 같은 특정 작업의 전문가 모델을 위해 설계되었습니다. 하지만 LLM 시험에는 적합하지 않을 수도 있습니다. 화학 분야에서 현재 사용되고 있는 대규모 언어 모델 벤치마크의 대부분은 질의-응답 형식을 채택하고 있으며, BLEU와 ROUGE를 평가 지표로 사용합니다. 그러나 이러한 유형의 평가는 언어 모델의 출력 스타일에 따라 상당한 영향을 받을 수 있으며 과학적 사실의 정확성이 강조되는 시나리오에는 적합하지 않습니다. 이 경우 답변에 유사한 언어 스타일이 나타나면 사실적 오류가 포함되어 있음에도 불구하고 더 높은 평가 점수를 받을 수도 있습니다. 따라서 연구팀은 현재 주류 평가 세트인 MMLU 30과 C-Eval과 유사한 객관식 문제로 구성된 화학 벤치마크를 구성하기로 결정했습니다.

데이터 세트 개요

연구팀은 언어 모델의 화학에 대한 이해도를 엄격하게 평가하기 위해 화학 분자와 반응에 대한 9개 과제로 구성된 혁신적인 벤치마크인 ChemBench를 출시했습니다. 이는 ChemData의 과제와 동일하며, 정답이 하나인 객관식 문제 4,100개로 구성되어 있습니다. 이 벤치마크는 대규모 언어 모델의 화학성을 객관적으로 측정할 수 있는 기반을 마련합니다.

ChemBench의 모든 작업 분포는 그림에 표시되어 있습니다.

 

다른 오픈 소스 데이터 세트 소개

ChemData700K, ChemPref-10K 및 C-MHChem 데이터 세트의 중국어 및 영어 버전을 사용하려면 여기를 클릭하세요.

ChemBench-4K 데이터 세트

ChemData700K는 9개의 핵심 화학 과제와 730,000개의 고품질 질문과 답변을 포함하는 대규모 언어 모델 화학 기능 지침 미세 조정 데이터 세트로, 700만 개의 데이터 중 1/10에서 샘플링되었습니다. 이 데이터 세트는 광범위한 화학 도메인 지식을 포괄하며 세 가지 주요 작업 범주(분자, 반응, 도메인)를 따릅니다.

ChemPref-10K 데이터 세트

이 데이터 세트는 인간의 선호도에 맞춰 언어 모델을 최적화하는 데 사용될 수 있으며 영어와 중국어 버전이 모두 포함되어 있습니다.

C-MHChem 데이터 세트

C-MHChem은 지난 25년 동안 중국 각지의 중학교, 고등학교, 대학 입학 시험에서 수집한 600개의 문제로 구성된, 완전히 수작업으로 작성된 고품질의 객관식 시험 벤치마크입니다.

ChemBench4K.torrent
시딩 1다운로드 중 0완료됨 90총 다운로드 횟수 176
  • ChemBench4K/
    • README.md
      3.08 KB
    • README.txt
      6.17 KB
      • data/
        • ChemBench4K.zip
          509.65 KB