8 个月前

摘要

生物信息学领域已经取得了显著进展，使得跨模态文本-分子检索任务变得日益重要。这一任务旨在根据文本描述准确检索分子结构，通过有效对齐文本描述和分子，帮助研究人员识别合适的分子候选物。然而，许多现有方法忽视了分子亚结构中的细节。在本研究中，我们引入了一种基于最优传输的多粒度对齐模型（Optimal TRansport-based Multi-grained Alignments model, ORMA），这是一种新颖的方法，可以实现文本描述与分子之间的多粒度对齐。我们的模型包括一个文本编码器和一个分子编码器。文本编码器处理文本描述以生成词级和句级表示，而分子则被建模为层次异构图，包含原子节点、基序节点和分子节点，从而在这三个层次上提取表示。ORMA的一个关键创新点是应用最优传输（Optimal Transport, OT）技术来对齐词与基序，创建多词表示，这些表示整合了多个词与其对应基序的对齐关系。此外，我们还采用了对比学习方法来优化三个不同尺度上的跨模态对齐：词-原子、多词-基序和句-分子，确保正确匹配的文本-分子对之间的相似性最大化，而不匹配的对之间的相似性最小化。据我们所知，这是首次尝试探索基序和多词水平上的对齐问题。在ChEBI-20和PCdes数据集上的实验结果表明，ORMA显著优于现有的最先进（State-of-the-Art, SOTA）模型。

源 PDF