
摘要
我们提出一项新任务——Text2Mol,旨在利用自然语言描述作为查询来检索分子结构。自然语言与分子在信息编码方式上存在本质差异,这使得融合这两种截然不同的模态成为一个既富有前景又极具挑战性的问题。尽管已有研究涉及基于文本的检索与基于结构的检索,但本任务要求更直接地整合分子与自然语言信息。此外,若将分子视为一种具有独特“语法”的语言,则该任务可被视为一项极具挑战性的跨语言检索问题。为此,我们构建了一个包含分子及其对应自然语言描述的配对数据集,并利用该数据集学习一个对齐的共同语义嵌入空间,以支持高效检索。在此基础上,我们进一步提出一种基于跨模态注意力机制的模型,通过将注意力权重解释为关联规则,实现模型的可解释性与重排序功能。同时,我们采用集成学习方法融合多种模型架构,使检索性能显著提升,平均倒数排名(MRR)从0.372提高至0.499。这一新型多模态方法为化学文献理解与分子机器学习中的问题求解开辟了全新的视角。