한 개의 Transformer가 2D 및 3D 분자 데이터를 모두 이해할 수 있다

시각 및 언어 데이터는 일반적으로 고유한 형식을 갖는 반면, 분자는 다양한 화학적 표현 방식을 통해 자연스럽게 특성화될 수 있다. 분자를 2차원 그래프로 간주하거나, 3차원 공간 내에 위치한 원자들의 집합으로 정의할 수 있다. 분자 표현 학습을 위한 기존 대부분의 연구들은 특정 데이터 형식에만 적합한 신경망을 설계하여, 학습된 모델이 다른 형식의 데이터에 대해 실패할 가능성이 높았다. 우리는 화학 분야에 적용 가능한 일반 목적의 신경망 모델이 다양한 데이터 모달리티에 걸쳐 분자 작업을 처리할 수 있어야 한다고 믿는다. 이 목표를 달성하기 위해 본 연구에서는 2D 또는 3D 형식의 분자 데이터를 입력으로 받아 의미 있는 의미 표현을 생성할 수 있는 새로운 트랜스포머 기반 분자 모델인 Transformer-M을 제안한다. 표준 트랜스포머를 백본 아키텍처로 사용하여, Transformer-M은 2D와 3D 구조 정보를 각각 별도의 채널로 인코딩하고, 네트워크 모듈 내에서 원자 특징과 이를 통합한다. 입력 데이터가 특정 형식일 경우 해당 채널만 활성화되고, 다른 채널은 비활성화된다. 적절히 설계된 지도 신호를 기반으로 2D 및 3D 분자 데이터를 훈련시킴으로써, Transformer-M은 다양한 데이터 모달리티에서의 지식을 자동으로 활용하고 올바르게 표현을 포착하는 능력을 습득한다. 우리는 Transformer-M에 대해 광범위한 실험을 수행하였으며, 모든 실증 결과는 Transformer-M이 2D 및 3D 작업 모두에서 동시에 뛰어난 성능을 달성함을 보여주어 그 광범위한 적용 가능성을 시사한다. 코드 및 모델은 https://github.com/lsj2408/Transformer-M에서 공개될 예정이다.