ChemVLM：探索化学领域多模态大型语言模型的威力

教程简介

ChemVLM 是由上海人工智能实验室于 2024 年推出的首个面向化学领域的开源多模态大型语言模型。该模型旨在解决化学图像理解与文本分析之间的不兼容问题，通过结合视觉 Transformer (ViT) 、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势，实现了对化学图像和文本的全面推理。 ChemVLM 基于 VIT-MLP-LLM 架构，采用 ChemLLM-20B 作为基础大型模型，增强了模型理解和利用化学文本知识的能力，并使用 InternVIT-6B 作为图像编码器。此外，研究团队还从化学领域精心挑选了包括分子、反应式以及化学考试数据在内的高质量数据，构建了双语多模态问答数据集，以进一步提升模型性能。

运行步骤

1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面（由于模型较大，成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面）

2. 可以选择设置相关采样参数（不同的采样参数效果可能不同），然后上传化学图像继续与模型进行对话，

例如下图

点击提交即可看到模型输出结果

教程简介

运行步骤

1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面（由于模型较大，成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面）

2. 可以选择设置相关采样参数（不同的采样参数效果可能不同），然后上传化学图像继续与模型进行对话，例如下图

点击提交即可看到模型输出结果

ChemVLM：探索化学领域多模态大型语言模型的威力

教程简介

运行步骤

1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面（由于模型较大，成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面）

2. 可以选择设置相关采样参数（不同的采样参数效果可能不同），然后上传化学图像继续与模型进行对话，

例如下图

点击提交即可看到模型输出结果

Command Palette

一键部署 ChemVLM-26B

ChemVLM：探索化学领域多模态大型语言模型的威力

教程简介

运行步骤

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 ChemVLM-26B

ChemVLM：探索化学领域多模态大型语言模型的威力

教程简介

运行步骤

相关教程

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 DeepSeek-R1-70B

一键部署 Ministral-3-14B-Instruct

一键部署 Qwen-Image-Lightning

F5-E2 TTS 只需 3 秒克隆任何音色

Ovis-Image：高质量图像生成模型

Fara-7B：高效的网页智能体模型

Docling：文档解析神器

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一键部署 ChemVLM-26B

ChemVLM：探索化学领域多模态大型语言模型的威力

教程简介

运行步骤

相关教程

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 DeepSeek-R1-70B

一键部署 Ministral-3-14B-Instruct

一键部署 Qwen-Image-Lightning

F5-E2 TTS 只需 3 秒克隆任何音色

Ovis-Image：高质量图像生成模型

Fara-7B：高效的网页智能体模型

Docling：文档解析神器

用 AI 构建 AI

HyperAI Newsletters

相关教程

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 DeepSeek-R1-70B

一键部署 Ministral-3-14B-Instruct

一键部署 Qwen-Image-Lightning

F5-E2 TTS 只需 3 秒克隆任何音色

Ovis-Image：高质量图像生成模型

Fara-7B：高效的网页智能体模型

Docling：文档解析神器

相关教程

一键部署 MedGemma-27b-text-it 医学推理大模型

一键部署 SmolLM3-3B-Model

一键部署 DeepSeek-R1-70B

一键部署 Ministral-3-14B-Instruct

一键部署 Qwen-Image-Lightning

F5-E2 TTS 只需 3 秒克隆任何音色

Ovis-Image：高质量图像生成模型

Fara-7B：高效的网页智能体模型

Docling：文档解析神器