
摘要
大型语言模型在自然语言处理领域取得了显著进展,通过处理分子的文本表示,为分子科学领域的创新应用提供了支持。然而,大多数现有的语言模型无法捕捉具有复杂分子结构或图像的丰富信息。本文介绍了一种多模态大型语言模型——GIT-Mol,该模型集成了图、图像和文本信息。为了促进多模态分子数据的融合,我们提出了一种新的架构——GIT-Former,该架构能够将所有模态对齐到一个统一的潜在空间中。与基线模型相比,我们在属性预测方面实现了5%至10%的准确率提升,在分子生成的有效性方面提高了20.2%。借助任意模态到语言的分子翻译策略,我们的模型有望执行更多的下游任务,如化合物名称识别和化学反应预测。