HyperAIHyperAI

Command Palette

Search for a command to run...

基于最优传输的多粒度对齐在文本-分子检索中的应用研究

Zijun Min Bingshuai Liu Liang Zhang Jia Song Jinsong Su Song He Xiaochen Bo

摘要

生物信息学领域已经取得了显著进展,使得跨模态文本-分子检索任务变得日益重要。这一任务旨在根据文本描述准确检索分子结构,通过有效对齐文本描述和分子,帮助研究人员识别合适的分子候选物。然而,许多现有方法忽视了分子亚结构中的细节。在本研究中,我们引入了一种基于最优传输的多粒度对齐模型(Optimal TRansport-based Multi-grained Alignments model, ORMA),这是一种新颖的方法,可以实现文本描述与分子之间的多粒度对齐。我们的模型包括一个文本编码器和一个分子编码器。文本编码器处理文本描述以生成词级和句级表示,而分子则被建模为层次异构图,包含原子节点、基序节点和分子节点,从而在这三个层次上提取表示。ORMA的一个关键创新点是应用最优传输(Optimal Transport, OT)技术来对齐词与基序,创建多词表示,这些表示整合了多个词与其对应基序的对齐关系。此外,我们还采用了对比学习方法来优化三个不同尺度上的跨模态对齐:词-原子、多词-基序和句-分子,确保正确匹配的文本-分子对之间的相似性最大化,而不匹配的对之间的相似性最小化。据我们所知,这是首次尝试探索基序和多词水平上的对齐问题。在ChEBI-20和PCdes数据集上的实验结果表明,ORMA显著优于现有的最先进(State-of-the-Art, SOTA)模型。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于最优传输的多粒度对齐在文本-分子检索中的应用研究 | 论文 | HyperAI超神经