ChemVLM 是由上海人工智能实验室于 2024 年推出的首个面向化学领域的开源多模态大型语言模型。该模型旨在解决化学图像理解与文本分析之间的不兼容问题,通过结合视觉 Transformer (ViT) 、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势,实现了对化学图像和文本的全面推理。 ChemVLM 基于 VIT-MLP-LLM 架构,采用 ChemLLM-20B 作为基础大型模型,增强了模型理解和利用化学文本知识的能力,并使用 InternVIT-6B 作为图像编码器。此外,研究团队还从化学领域精心挑选了包括分子、反应式以及化学考试数据在内的高质量数据,构建了双语多模态问答数据集,以进一步提升模型性能。
1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面(由于模型较大,成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面)
2. 可以选择设置相关采样参数(不同的采样参数效果可能不同),然后上传化学图像继续与模型进行对话,
例如下图
点击提交即可看到模型输出结果