2달 전
분자와 텍스트 표현을 통합하는 다중 작업 언어 모델링
Dimitrios Christofidellis; Giorgio Giannone; Jannis Born; Ole Winther; Teodoro Laino; Matteo Manica

초록
최근의 신경망 언어 모델의 발전은 화학 분야에도 성공적으로 적용되어, 분자 설계와 합성 계획에 대한 고전적인 문제들에 생성적 해결책을 제공하고 있습니다. 이러한 새로운 방법들은 과학적 발견에서 데이터 주도형 자동화의 새로운 시대를 이끌 가능성을 가지고 있습니다. 그러나 여전히 각각의 작업에 특화된 모델이 필요하여, 문제별 미세 조정이 요구되고 작업 간 관계가 소홀히 다루어지고 있습니다. 이 분야의 주요 장애물은 자연어와 화학 표현 사이의 통합된 표현 부족으로, 이는 인간-기계 상호작용을 복잡하게 하고 제한합니다. 본 연구에서는 화학과 자연어 영역 모두에서 다양한 작업을 해결할 수 있는 첫 번째 다영역, 다태스크 언어 모델을 제안합니다. 우리의 모델은 비싸고 시간이 많이 걸리는 단일 영역 또는 태스크별 사전 학습이나 특정 태스크 모델 없이 화학과 자연어를 동시에 처리할 수 있습니다. 흥미롭게도, 영역 간 가중치 공유는 단일 영역 및 교차 영역 태스크에서 최신 기준모델들과 비교했을 때 우리 모델의 성능을 크게 개선하는 것으로 나타났습니다. 특히, 영역과 태스크 간 정보 공유는 관련 지표 10여 개 이상으로 측정되었듯이 규모가 커질수록 교차 영역 태스크에서 큰 개선 효과를 가져옵니다. 우리의 연구는 이러한 모델들이 문제별 미세 조정을 대체하고 인간-모델 상호작용을 강화함으로써 물리과학 분야에서 견고하고 효율적으로 발견을 가속화할 수 있음을 시사합니다.