2달 전

특성 강화 지시어 조정을 통한 대형 언어 모델을 이용한 다중 작업 분자 생성

Lin, Xuan ; Chen, Long ; Wang, Yile ; Zeng, Xiangxiang ; Yu, Philip S.
특성 강화 지시어 조정을 통한 대형 언어 모델을 이용한 다중 작업 분자 생성
초록

대형 언어 모델(LLMs)은 질문 응답 및 기계 번역과 같은 다양한 자연어 처리 작업에 널리 적용되고 있습니다. 그러나 생화학적 특성에 대한 라벨링 데이터의 부족과 수작업 주석의 어려움으로 인해, 분자 생성 작업의 성능은 여전히 제한적이며, 특히 다중 속성 제약을 포함하는 작업에서는 더욱 그렇습니다. 본 연구에서는 분자 관련 작업을 개선하기 위해 두 단계 프레임워크인 PEIT(Property Enhanced Instruction Tuning)를 제시합니다. 첫 번째 단계에서는 텍스트 설명, SMILES, 그리고 생화학적 특성을 다중 모달 입력으로 사용하여 PEIT-GEN이라는 모델을 사전 학습합니다. 이는 다중 모달 표현을 정렬하여 지시 데이터를 합성하는 과정을 통해 이루어집니다. 두 번째 단계에서는 합성된 데이터로 기존 오픈 소스 LLMs를 미세 조정(fine-tune)하여, 결과적으로 생성된 PEIT-LLM이 분자 캡셔닝, 텍스트 기반 분자 생성, 분자 특성 예측, 그리고 우리가 새로 제안한 다중 제약 분자 생성 작업을 처리할 수 있게 됩니다.실험 결과, 우리 사전 학습 모델인 PEIT-GEN은 MolT5와 BioT5보다 분자 캡셔닝에서 우수한 성능을 보였으며, 이는 텍스트 설명, 구조, 그리고 생화학적 특성 간의 모달성이 잘 일치함을 입증합니다. 또한, PEIT-LLM은 다중 작업 분자 생성에서 유망한 개선점을 보여주어, PEIT 프레임워크가 다양한 분자 관련 작업에 확장 가능함을 증명하였습니다. 우리는 코드, 구성된 지시 데이터, 그리고 모델 체크포인트를 https://github.com/chenlong164/PEIT 에 공개합니다.

특성 강화 지시어 조정을 통한 대형 언어 모델을 이용한 다중 작업 분자 생성 | 최신 연구 논문 | HyperAI초신경