9일 전

분자에서 부분그래프 조건부 그래프 정보 복잡도를 이용한 사전 훈련 그래프 신경망

{Van Thuy Hoang; O-Joun Lee}
분자에서 부분그래프 조건부 그래프 정보 복잡도를 이용한 사전 훈련 그래프 신경망
초록

이 연구는 인간의 주석이나 사전 지식 없이 분자에 대한 사전 훈련(Graph Neural Network, GNN) 모델을 구축하는 것을 목표로 한다. 다양한 레이블이 부여된 분자 확보에 대한 한계를 극복하기 위한 여러 시도가 제안되었지만, 기존의 사전 훈련 방법은 여전히 의미론적 서브그래프(즉, 기능 그룹)에 의존하고 있다. 단지 기능 그룹에만 초점을 맞추는 것은 그래프 수준의 차이를 간과할 수 있다. 분자에 대한 사전 훈련 GNN 모델을 구축하는 데 있어 핵심 과제는 (1) 잘 구분되는 그래프 수준의 표현을 생성하는 것과 (2) 사전 지식 없이 기능 그룹을 자동으로 탐지하는 것이다. 이를 해결하기 위해, 핵심 서브그래프(graph cores)와 중요한 서브그래프를 인식하기 위한 새로운 서브그래프 조건부 그래프 정보 병목(S-CGIB: Subgraph-conditioned Graph Information Bottleneck)을 제안한다. 주요 아이디어는 그래프 코어가 압축되고 충분한 정보를 포함하고 있어, S-CGIB 원칙 하에서 다양한 분자 내에서 중요한 서브그래프를 조건으로 입력 그래프를 재구성할 수 있으며, 잘 구분되는 그래프 수준의 표현을 생성할 수 있다는 점이다. 기능 그룹에 대한 사전 지식 없이 중요한 서브그래프를 탐지하기 위해, 에고 네트워크(ego networks) 형태의 기능 그룹 후보군을 생성하고, 그래프 코어와 후보군 간의 어텐션 기반 상호작용을 활용한다. 자율 학습을 통해 추출된 본 연구의 서브그래프는 실제 세계의 기능 그룹과 잘 일치함을 확인하였다. 다양한 분야의 분자 데이터셋에 대한 광범위한 실험을 통해 S-CGIB의 우수성을 입증하였다.