Dual Transformer를 활용한 더 나은 약물 반응 예측 모델로의 발전

최근几年,基于图神经网络(GNN)的方法在药物反应预测任务中作为主流任务取得了优异的结果。传统的GNN方法仅使用药物分子中的原子作为节点,通过节点信息传递来获取分子图的表示,而使用变换器(Transformer)的方法只能提取节点的信息。然而,药物分子的共价键和手性对分子的药理特性有很大影响,这些信息隐含在由原子之间形成的化学键中。此外,用于建模细胞系基因组序列的卷积神经网络(CNN)方法只能感知序列的局部信息而非全局信息。为了克服上述问题,我们提出了用于药物反应预测的解耦双变换器结构及边嵌入方法(TransEDRP),该方法分别用于细胞系基因组和药物的表示。对于药物分支,我们将分子内的化学键信息编码为分子图中边的嵌入,利用图变换器提取药物分子的整体结构和生物化学信息。对于细胞系基因组分支,我们使用多头注意力机制来全局表示基因组序列。最后,通过变换器层和全连接层将药物和基因组分支融合以预测IC50值,这两个分支属于不同的模态。广泛的实验表明,我们的方法在所有评估指标上均优于当前主流方法。최근 몇 년간 그래프 신경망(GNN) 기반 방법은 약물 반응 예측 작업에서 주요 작업으로서 뛰어난 결과를 달성하였습니다. 전통적인 GNN 방법은 약물 분자 내의 원자만을 노드로 사용하여 노드 정보 전달을 통해 분자 그래프의 표현을 얻지만, Transformer를 사용하는 방법은 노드 정보만을 추출할 수 있습니다. 그러나 약물 분자의 공유 결합과 치랄성(chirality)은 분자의 약리 특성에 큰 영향을 미치며, 이러한 정보는 원자 사이에서 형성된 화학 결합에 내재되어 있습니다. 또한, 세포주 유전체 서열 모델링에 사용되는 합성곱 신경망(CNN) 방법은 서열의 국소 정보만을 인식할 수 있으며, 전체적인 정보는 파악할 수 없습니다.위와 같은 문제들을 해결하기 위해, 우리는 약물 반응 예측을 위한 변환기(Transformer) 및 변장 구조를 가진 해결형 이중 변환기 구조(TransEDRP)를 제안합니다. 이 방법은 각각 세포주 유전체와 약물을 표현하는 데 사용됩니다. 약물 분기에 대해서는 분자 내의 화학 결합 정보를 분자 그래프의 엣지(embedding of the edge) 임베딩으로 인코딩하고, 그래프 Transformer를 이용하여 약물 분자의 전반적인 구조적 및 생화학적 정보를 추출합니다. 세포주 유전체 분기에 대해서는 다중 헤드 어텐션 메커니즘을 사용하여 유전체 서열을 전반적으로 표현합니다. 마지막으로, Transformer 층과 완전 연결 층을 통해 두 가지 다른 모달리티인 약물과 유전체 분기를 융합하여 IC50 값을 예측합니다. 광범위한 실험 결과, 우리의 방법이 현재 주류 접근 방식보다 모든 평가 지표에서 우수함이 입증되었습니다.