9일 전
ChemBERTa-2: 화학 기반 모델로의 도전
Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath Ramsundar

초록
GPT-3와 같은 대규모 사전 훈련 모델은 자기지도 학습(self-supervised learning)을 활용하여 다양한 하류 작업에 쉽게 미세 조정이 가능한 중요한 표현을 학습함으로써 현대 자연어 처리 분야에 큰 영향을 미쳤다. 본 연구에서는 SMILES(Simplified Molecular Input Line Entry System) 언어를 사용하여 화학 기반 모델(chemical foundation model)인 ChemBERTa-2를 구축함으로써 이러한 기술적 진보를 분자 기계 학습 분야로 확장할 가능성에 대해 탐구한다. 분자 예측 작업을 위한 레이블링된 데이터는 일반적으로 부족하지만, SMILES 문자열 라이브러리는 쉽게 확보할 수 있다. 본 연구에서는 기존의 ChemBERTa 모델을 기반으로 사전 훈련 과정을 최적화하였다. 다양한 하이퍼파라미터와 사전 훈련 데이터셋 크기를 변화시켜 다중 작업(multi-task) 및 자기지도 사전 훈련을 비교하였으며, 최대 7700만 개의 화합물 데이터를 PubChem에서 활용하였다. 현재까지 분자 사전 훈련에 사용된 데이터셋 중 가장 큰 규모 중 하나로, 본 연구에서 제시된 7700만 개의 데이터셋은 그 의미가 크다. 이러한 사전 훈련 개선을 통해 MoleculeNet 벤치마크 세트에서 기존 최고 성능 아키텍처와 경쟁 가능한 성능을 달성하였다. 또한 사전 훈련 개선이 하류 작업 성능 향상에 얼마나 기여하는지 분석하였다.