BioMedGPT: 생물의학을 위한 오픈 소스 다중모달 생성형 사전학습 변환기

기초 모델(Foundation Models, FMs)은 다양한 분야에서 다양한 하류 작업에 걸쳐 놀라운 성능을 보여주고 있다. 그러나 일반 목적의 기초 모델은 특정 도메인의 고유한 훈련 데이터에 접근할 수 있는 제한이 있어, 도메인 특화 문제에 직면했을 때 어려움을 겪는 경우가 많다. 생물의학 분야에서는 분자, 단백질, 세포와 같은 다양한 생물학적 모달리티가 존재하며, 이들은 생명의 언어로 표현되지만 인간의 자연 언어와는 상당한 모달리티 갭을 보인다. 본 논문에서는 생명의 언어와 인간의 자연 언어 사이의 격차를 해소하기 위해, 생물의학 분야를 위한 오픈 소스 다중 모달 생성형 사전 훈련 변형 모델인 BioMedGPT를 소개한다. BioMedGPT는 자유 텍스트를 통해 다양한 생물학적 모달리티와 쉽게 "소통"할 수 있도록 해주는 것으로, 세계 최초의 사례이다. BioMedGPT는 대규모 생성형 언어 모델인 BioMedGPT-LM을 활용하여 다양한 생물학적 모달리티를 자연 언어와 정렬한다. 본 연구에서는 분자, 단백질, 자연 언어의 특징 공간을 인코딩하고 정렬함으로써 통합하는 BioMedGPT-10B를 공개한다. 미세 조정을 통해 BioMedGPT-10B는 생물의학 질문 응답(QA) 과제에서 인간 및 훨씬 더 큰 일반 목적 기초 모델과 비교해도 우수하거나 동등한 성능을 보였다. 또한 분자 QA 및 단백질 QA 과제에서도 희망적인 성능을 나타내어 새로운 약물 및 치료 타겟의 발견을 크게 가속화할 수 있다. 더불어 BioMedGPT-LM-7B는 생물의학 분야에서 Llama2 기반으로 구축된 최초의 대규모 생성형 언어 모델로서 상용화에 유리한 특성을 지닌다. BioMedGPT-10B와 BioMedGPT-LM-7B 모두 연구 공동체에 오픈소스로 공개된다. 또한, 다중 모달리티 간 정렬을 위해 철저히 준비된 데이터셋인 PubChemQA 및 UniProtQA도 함께 공개한다. 모든 모델, 코드, 데이터셋은 \url{https://github.com/PharMolix/OpenBioMed}에서 제공된다.