2 个月前

基于最优传输的多粒度对齐在文本-分子检索中的应用研究

Zijun Min; Bingshuai Liu; Liang Zhang; Jia Song; Jinsong Su; Song He; Xiaochen Bo
基于最优传输的多粒度对齐在文本-分子检索中的应用研究
摘要

生物信息学领域已经取得了显著进展,使得跨模态文本-分子检索任务变得日益重要。这一任务旨在根据文本描述准确检索分子结构,通过有效对齐文本描述和分子,帮助研究人员识别合适的分子候选物。然而,许多现有方法忽视了分子亚结构中的细节。在本研究中,我们引入了一种基于最优传输的多粒度对齐模型(Optimal TRansport-based Multi-grained Alignments model, ORMA),这是一种新颖的方法,可以实现文本描述与分子之间的多粒度对齐。我们的模型包括一个文本编码器和一个分子编码器。文本编码器处理文本描述以生成词级和句级表示,而分子则被建模为层次异构图,包含原子节点、基序节点和分子节点,从而在这三个层次上提取表示。ORMA的一个关键创新点是应用最优传输(Optimal Transport, OT)技术来对齐词与基序,创建多词表示,这些表示整合了多个词与其对应基序的对齐关系。此外,我们还采用了对比学习方法来优化三个不同尺度上的跨模态对齐:词-原子、多词-基序和句-分子,确保正确匹配的文本-分子对之间的相似性最大化,而不匹配的对之间的相似性最小化。据我们所知,这是首次尝试探索基序和多词水平上的对齐问题。在ChEBI-20和PCdes数据集上的实验结果表明,ORMA显著优于现有的最先进(State-of-the-Art, SOTA)模型。

基于最优传输的多粒度对齐在文本-分子检索中的应用研究 | 最新论文 | HyperAI超神经