2 个月前

Mol2Lang-VLM：视觉与文本引导的生成式预训练语言模型，通过多模态融合推进分子图像描述生成

{and Balachandran Manavalan, Nguyen Nguyen, Nhat Truong Pham, Duong Tran}

摘要

本文提出了一种名为Mol2Lang-VLM的增强方法，旨在通过引入多模态特征，对生成式预训练语言模型进行优化，以实现更精准的分子图像描述生成。该方法基于Transformer架构，在编码器与解码器模块中分别引入了第三子层。具体而言，编码器中的子层用于融合SELFIES字符串与分子图像的特征，而解码器中的子层则用于融合SMILES字符串及其对应描述文本的特征。此外，本文采用交叉多头注意力机制替代传统的多头注意力机制，使解码器能够有效关注编码器的输出，从而整合编码后的上下文信息，提升描述生成的准确性和质量。在CheBI-20与L+M-24两个基准数据集上的性能评估结果表明，Mol2Lang-VLM在描述生成的准确率与质量方面均优于现有方法。相关代码与预处理数据已开源，获取地址为：https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/。