대규모 언어 모델을 활용한 분자-캡션 번역을 위한 분자 발견 강화: ChatGPT의 관점

분자 발견은 다양한 과학 분야에서 중요한 역할을 하며, 맞춤형 재료와 약물 설계를 발전시키는 데 기여합니다. 그러나 대부분의 기존 방법들은 전문가에 대한 의존도가 높거나 과도한 계산 비용이 필요하거나, 또는 최적의 성능을 내지 못하는 등의 문제를 가지고 있습니다. 반면에 대규모 언어 모델(LLMs)인 ChatGPT와 같은 모델들은 자연어 이해, 일반화, 그리고 문맥 내 학습(In-Context Learning, ICL) 능력 덕분에 다양한 다중 모달 작업에서 뛰어난 성능을 보여주고 있어, 이는 분자 발견을 진전시키는 데 있어 새로운 기회를 제공하고 있습니다. 이전 연구들 중 몇몇은 LLMs를 이 작업에 적용하려 시도했지만, 특정 영역의 말뭉치 부족과 전문적인 LLMs 훈련의 어려움은 여전히 도전 과제로 남아 있습니다.본 연구에서는 분자-캡션 번역을 위한 새로운 LLM 기반 프레임워크(MolReGPT)를 제안하며, 여기서는 문맥 내 소수 샷 분자 학습(In-Context Few-Shot Molecule Learning) 패러다임을 도입하여 ChatGPT와 같은 LLMs가 특정 영역 사전 훈련이나 미세 조정 없이도 문맥 내 학습 능력을 활용할 수 있도록 합니다. MolReGPT는 분자 유사성 원칙을 활용하여 로컬 데이터베이스에서 유사한 분자들과 그 텍스트 설명들을 검색하여, LLMs가 예시 문맥으로부터 작업 지식을 배울 수 있도록 합니다. 우리는 MolReGPT의 효과성을 분자-캡션 번역, 즉 분자 이해 및 텍스트 기반 분자 생성 등에서 평가하였습니다. 실험 결과, 추가적인 훈련 없이 MolReGPT는 fine-tuned 모델인 MolT5-base보다 우수한 성능을 보였으며, MolT5-large와 비교해도 유사한 성능을 나타냈습니다. 우리 연구팀이 아는 한, MolReGPT는 문맥 내 학습을 통해 분자-캡션 번역 작업에서 LLMs를 활용하여 분자 발견을 진전시키는 첫 번째 연구입니다. 본 연구는 LLMs의 응용 범위를 확장함과 동시에 분자의 발견과 설계에 새로운 패러다임을 제공합니다.