11 天前

Mol2Lang-VLM:视觉与文本引导的生成式预训练语言模型,通过多模态融合推进分子图像描述生成

{and Balachandran Manavalan, Nguyen Nguyen, Nhat Truong Pham, Duong Tran}
Mol2Lang-VLM:视觉与文本引导的生成式预训练语言模型,通过多模态融合推进分子图像描述生成
摘要

本文提出了一种名为Mol2Lang-VLM的增强方法,旨在通过引入多模态特征,对生成式预训练语言模型进行优化,以实现更精准的分子图像描述生成。该方法基于Transformer架构,在编码器与解码器模块中分别引入了第三子层。具体而言,编码器中的子层用于融合SELFIES字符串与分子图像的特征,而解码器中的子层则用于融合SMILES字符串及其对应描述文本的特征。此外,本文采用交叉多头注意力机制替代传统的多头注意力机制,使解码器能够有效关注编码器的输出,从而整合编码后的上下文信息,提升描述生成的准确性和质量。在CheBI-20与L+M-24两个基准数据集上的性能评估结果表明,Mol2Lang-VLM在描述生成的准确率与质量方面均优于现有方法。相关代码与预处理数据已开源,获取地址为:https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/。

Mol2Lang-VLM:视觉与文本引导的生成式预训练语言模型,通过多模态融合推进分子图像描述生成 | 最新论文 | HyperAI超神经