HyperAIHyperAI

Command Palette

Search for a command to run...

Mol2Lang-VLM:视觉与文本引导的生成式预训练语言模型,通过多模态融合推进分子图像描述生成

and Balachandran Manavalan Nguyen Nguyen Nhat Truong Pham Duong Tran

摘要

本文提出了一种名为Mol2Lang-VLM的增强方法,旨在通过引入多模态特征,对生成式预训练语言模型进行优化,以实现更精准的分子图像描述生成。该方法基于Transformer架构,在编码器与解码器模块中分别引入了第三子层。具体而言,编码器中的子层用于融合SELFIES字符串与分子图像的特征,而解码器中的子层则用于融合SMILES字符串及其对应描述文本的特征。此外,本文采用交叉多头注意力机制替代传统的多头注意力机制,使解码器能够有效关注编码器的输出,从而整合编码后的上下文信息,提升描述生成的准确性和质量。在CheBI-20与L+M-24两个基准数据集上的性能评估结果表明,Mol2Lang-VLM在描述生成的准确率与质量方面均优于现有方法。相关代码与预处理数据已开源,获取地址为:https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供