HyperAI초신경

상하이 AI 연구소, 700만 건의 질의응답 데이터 처리, GPT-4 수준의 전문 역량 갖춘 ChemLLM 출시

特色图像

인공지능 기술의 급속한 발전으로, 강력한 자연어 처리 기능 덕분에 대규모 언어 모델(LLM)이 생명 과학, 해양학, 재료 화학 등의 과학 연구에 널리 사용되고 있습니다. LLM은 분자 특성 예측, 분자 생성, 실험 설계 등 화학 관련 업무에서는 좋은 성과를 보이지만, 다양한 화학 하류 업무를 처리할 때는 성과가 좋지 않습니다.

그 이유는 화학적 지식을 언어 모델에 직접 통합하는 데는 세 가지 주요 과제가 있기 때문입니다.첫째, 대부분의 화학 정보와 지식은 구조화된 데이터베이스에 저장되어 있습니다. 이러한 데이터를 직접 사용하여 LLM을 훈련하면 모델의 자연어 처리 능력이 손상되어 모델의 대화 및 논리적 추론 능력이 저하될 수 있습니다. 두 번째로, 화학정보학에서는 분자를 SMILES와 같은 특수 기호로 표현합니다. 그러나 이러한 유형의 데이터는 자연어 규범에 맞지 않는 경우가 많기 때문에 기존 언어 모델에서는 이러한 기호를 올바르게 이해하고 생성하는 데 어려움을 겪습니다. 마지막으로, 화학 데이터와 작업의 유형이 다양하기 때문에 다양한 화학 작업에 일반화할 수 있는 유연한 학습 과정을 설계하는 것은 매우 어렵습니다.

이에 대응하여 상하이 인공지능 연구소는 화학 대언어 모델 ChemLLM을 출시했습니다. ChemLM은 유창한 대화형 상호작용을 통해 화학 분야에서 다양한 업무를 수행하는 데 탁월하며, 핵심 업무에서는 GPT-4와 동등한 성과를 보이고 있으며, 일반적인 상황에서는 비슷한 규모의 LLM과 비슷한 성과를 보여줍니다. ChemLM은 화학 연구의 새로운 탐구 방향을 제시하며, 구조화된 화학 지식을 대화형 시스템으로 통합하려는 연구팀은 다양한 과학 분야에서 LLM을 개발하기 위한 새로운 기준을 제시합니다.

"ChemLLM: 화학적 대규모 언어 모델"이라는 제목의 관련 연구가 arXiv에 게재되었습니다. 결과는 오픈 소스로 공개되어 상업적 용도로 무료로 제공되었습니다.현재 HyperAI Hyper.ai는 "화학 대형 모델 ChemLM-7B-chat의 원클릭 배포"를 출시했습니다. 단계별 튜토리얼은 기사 마지막에 있습니다~

연구 하이라이트:

* 대규모 화학 데이터 세트인 ChemData, ChemPref-10K 데이터 세트의 중국어 및 영어 버전, C-MHChem 데이터 세트, ChemBench4K 화학 능력 평가 벤치마크 데이터 세트를 생성하고 오픈 소스화했습니다.

* 4,100개의 객관식 문제와 9개의 특정 작업으로 구성된 대규모 화학 벤치마크 테스트인 ChemBench를 생성하고 오픈 소스화했습니다.

* ChemLLM은 정량적, 정성적 평가 시험을 통해 우수한 화학적 전문성과 다재다능함을 입증했습니다.

서류 주소:
https://arxiv.org/abs/2402.06852

대형 화학 모델 ChemLM-7B-chat에 대한 튜토리얼이 이제 hyper.ai에서 온라인으로 제공됩니다. 링크를 클릭하면 한 번의 클릭으로 배포할 수 있습니다.
https://go.hyper.ai/r31KV

ChemData 화학 작업 데이터 세트의 다운로드 주소:
https://go.hyper.ai/zMJEl

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s

ChemData 데이터 세트: 700만 개의 질문-답변 데이터를 포함하는 대규모 화학 데이터 세트

연구진은 PubChem, ChEMBL, ChEBI, ZINC 등 수많은 온라인 리소스 저장소에서 화학 데이터를 수집하고, 이를 기반으로 ChemLM을 미세 조정하기 위한 대규모 데이터 세트 ChemData를 만들었습니다.

ChemData 데이터 세트는 템플릿 기반 지침 구성 방식을 활용하여 구조화된 화학 데이터를 LLM 교육에 적합한 자연스러운 대화 형태로 변환합니다.이 데이터 세트에는 광범위한 화학 도메인 지식을 포괄하여 교육 미세 조정을 위한 700만 개의 질의 응답 데이터가 포함되어 있으며, 질의 응답 데이터 범주는 분자, 반응 및 기타 화학 관련 작업 범주와 일치합니다.

안에,분자 관련 작업에는 이름 변환, Caption2Mol, Mol2Caption 및 분자 속성 예측이 포함됩니다.주된 목적은 언어 모델의 화학 분자 인식을 조정하는 것입니다.

반응 관련 업무에는 화학 반응의 모든 측면이 포함됩니다.역합성, 생성물 예측, 수율 예측, 온도 예측 및 용매 예측을 포함합니다. 명확하게 분류할 수 있는 데이터를 제외한 나머지 모든 데이터는 특정 유형의 작업으로 그룹화되어 ChemLM이 화학 분야 전체를 이해하는 데 도움이 됩니다. 아래 그림은 이 세 가지 유형의 작업에 포함된 데이터의 비율을 보여줍니다.

ChemData 데이터 세트의 구성

ChemLM 모델 아키텍처: InternLM2-Base-7B 기반, 2단계 명령어 미세 조정

화학 대규모 언어 모델 ChemLM은 2단계 지침 미세 조정 방법을 통해 InternLM2-Base-7B 모델을 기반으로 훈련됩니다. 다양한 화학적 기능을 구현할 뿐만 아니라, 완벽한 자연어 기능도 유지합니다.

아래 그림과 같이, 연구팀은 1단계에서 Multi-Corpus(Hugging Face에서 수집한 170만 개의 질문-답변 쌍을 포함하는 포괄적인 코퍼스)를 활용하여 모델의 전반적인 언어 능력을 향상시켰고, 1단계에서 얻어진 모델에 InternLM2-Chat-7B라는 이름을 붙였습니다.

ChemLLM의 2단계 지침 미세 조정 프로세스의 개략도

두 번째 단계에서 연구팀은 ChemData와 Multi-Corpus를 혼합한 데이터 세트를 사용하여 모델을 미세 조정했습니다. ChemData는 모델의 화학적 지식을 강화하는 데 사용되었고 Multi-Corpus는 모델의 전반적인 성능을 유지하는 데 사용되었습니다. 2단계의 세부 조정 교육을 거친 후, 화학 분야에서 ChemLM의 다양성이 향상되었습니다.

ChemBench 벤치마크: 평가 결과에 대한 언어 모델 출력 스타일의 영향 감소

기존의 대규모 화학 모델 벤치마크는 대부분 질의응답 형태로 제시되며, BLEU와 ROUGE를 평가 기준으로 사용합니다. 그러나 이러한 유형의 평가는 언어 모델의 출력 스타일의 영향을 쉽게 받으며 과학적 사실의 정확성을 강조하는 시나리오에는 적합하지 않습니다.

이를 바탕으로 연구팀은 현재 주류를 이루는 평가 세트인 MMLU와 C-Eval과 유사한 화학 벤치마크 테스트 ChemBench를 구축했습니다. ChemBench에는 화학 분자와 반응에 대한 9가지 작업이 포함되어 있으며, ChemData 데이터 세트의 작업과 동일합니다.또한 ChemBench에는 언어 모델 출력 스타일이 평가 결과에 미치는 영향을 최소화하기 위한 목적으로 각각 정답이 있는 객관식 문제 4,100개가 포함되어 있습니다.

이 벤치마크는 OpenCompass 오픈 소스 프로젝트에서 출시되었다는 점이 주목할 만합니다. 다음 그림은 ChemBench 벤치마크의 9개 작업의 분포를 보여줍니다.

ChemBench 벤치마크 테스트에서 9개 작업의 분포

연구 결과: ChemLM 모델 화학 전문성은 GPT-4와 유사하며 유사한 규모의 일반 LLM보다 훨씬 우수합니다.

연구팀은 화학 대규모 언어 모델 ChemLM의 성능을 양적, 질적 차원에서 평가했습니다.양적 평가에는 화학 능력과 일반 능력 평가가 포함되고, 질적 평가는 주로 화학 관련 NLP(자연어 처리) 과제의 성과를 통해 평가됩니다.

화학 능력 평가에서는ChemBench는 핵심 화학 역량을 평가하기 위한 벤치마크 역할을 하며, 9가지 다양한 작업을 통해 모델의 전문성을 테스트합니다. 아래 그림에서 볼 수 있듯이 ChemLM은 비슷한 크기의 일반적인 대규모 언어 모델(LLM)보다 상당히 우수한 성능을 보이며, 전반적으로 GPT-3.5보다 뛰어납니다. InternLM2-Chat-7B와 비교했을 때 ChemLLM의 화학 능력이 상당히 향상되었으며, 이는 2단계 화학 능력 훈련의 효과가 상당하다는 것을 보여줍니다. GPT-4와 비교했을 때 ChemLM은 9개 과제 중 6개에서 GPT-4보다 높은 점수를 받았습니다.

ChemLM 화학 성능 평가 점수

일반 역량평가에서는연구팀은 MMLU, C-Eval, GSM8K, C-MHChem의 네 가지 데이터 세트를 사용하여 ChemLLM을 평가했습니다. 그 중 MMLU는 STEM(과학, 기술, 공학, 수학), 인문학, 사회과학 등 학제간 과목을 포괄하는 벤치마크 시험으로, 학제간 지식에 대한 광범위한 평가를 실시합니다. C-Eval은 다양한 과목을 포괄하는 포괄적인 중국어 벤치마크 테스트로, 4가지 난이도로 구분되어 있습니다. GSM8K는 언어 모델의 수학적 능력을 테스트하기 위한 벤치마크 테스트로, 2~8단계의 기본적인 수학 연산을 통해 문제를 푸는 것이 요구됩니다. C-MHChem은 모델의 기본 화학 개념을 평가하기 위한 데이터 세트로, 주로 중·고등학교 화학 시험과 관련이 있습니다.

아래 그림에서 볼 수 있듯이 ChemLLM은 영어 MMLU와 중국어 C-Eval 벤치마크에서 각각 65.6과 64.1의 정확도를 달성하여 더 다양한 학문 분야와 다국어 시나리오에서 탁월한 성능을 보여줍니다.

GSM8K 데이터 세트 테스트에서 ChemLM의 정확도는 67.2에 도달했습니다. 연구 결과에 따르면 화학 데이터에 대한 미세 조정을 통해 모델의 추론 능력이 어느 정도 향상되었습니다.

C-MHChem 데이터세트 테스트에서 ChemLLM은 76.4의 정확도를 달성하여 GPT-4를 능가했습니다. 이는 ChemLLM이 중국 중고등학교 입학 시험에서 우수한 역량을 발휘함을 보여줍니다.

ChemLM 일반 성과 평가 점수

질적 평가에서는연구팀은 화학 시 창작, 텍스트 추출, 화학 문헌 번역, 윤리적 답변 등 화학 관련 NLP(자연어 처리) 작업을 통해 ChemLLM을 평가했습니다. 연구 결과에 따르면 ChemLM은 다양한 NLP 과제에서 화학 지식에 대한 더 깊은 이해와 창의적인 적용을 제공할 수 있는 것으로 나타났습니다. 다음 그림은 일부 NLP 작업에서 ChemLM의 성능을 보여줍니다.

ChemLM 화학 시 쓰기
ChemLM 화학 정보 추출

위의 연구 결과는 ChemLM이 실시간 대화를 통해 다양한 화학 작업을 처리할 수 있음을 보여줍니다. 화학적 성능은 GPT-4와 비슷하며 다른 분야에서도 좋은 성과를 보입니다.


현재 ChemLM은 새로운 라운드의 업그레이드를 완료했습니다. ChemLLM-1.5는 RAG 기능과 연결되어 있어 화학 문헌과 온라인 검색에 대한 심층적인 마이닝과 이해를 지원할 뿐만 아니라 ChemLLM과 직접 대화하여 기사 내용을 논의할 수 있습니다. ChemLM의 개발은 과학 분야의 LLM에 대한 선례를 만들어 AI 시대의 화학 연구 발전을 더욱 가속화합니다.

HyperAI Hyper.ai는 "화학 대형 모델 ChemLM-7B-chat의 원클릭 배포"를 출시했습니다.다음은 단계별 튜토리얼과 효과 표시입니다. 에디터와 함께 탐험해볼까요~

화학대형모델 ChemLM-7B-chat의 원클릭 배포

데모 실행

  1. hyper.ai에 로그인하고 "튜토리얼" 페이지에서 "Pu Ke 화학 대형 모델 ChemLLM-7B-chat 데모의 원클릭 배포"를 선택하고 "이 튜토리얼을 온라인으로 실행"을 클릭합니다.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. 오른쪽 하단에 있는 "다음: 해시레이트 선택"을 클릭합니다.

4. 페이지가 이동한 후 "NVIDIA GeForce RTX 4090"을 선택하고 "다음: 검토"를 클릭합니다. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. "계속"을 클릭하고 리소스가 할당될 때까지 기다리세요. 첫 번째 복제 과정은 약 2분 정도 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 "Puke Chemical 대형 모델 ChemLLM-7B-chat 데모의 원클릭 배포" 페이지로 이동합니다. API 주소 접근 기능을 이용하기 위해서는 이용자가 실명인증을 완료해야 합니다.

문제가 10분 이상 지속되고 "리소스 할당 중" 상태로 남아 있는 경우 컨테이너를 중지했다가 다시 시작해 보세요. 재시작해도 문제가 해결되지 않으면 공식 웹사이트의 플랫폼 고객 서비스에 문의하세요.

효과 미리보기

약물 개발에서의 윤리적 딜레마 테스트

참고문헌:
1. https://mp.weixin.qq.com/s/C_aFYbzLlQySmTDarWWRkA
2. https://mp.weixin.qq.com/s/b9T9LxAkv4gnJMfBs2AW5Q