HyperAI

Déploiement En Un Clic De ChemVLM-26B

ChemVLM : Explorer la puissance des grands modèles de langage multimodaux en chimie

Introduction au tutoriel

ChemVLM est le premier modèle de langage multimodal open source à grande échelle pour le domaine de la chimie lancé par le Laboratoire d'intelligence artificielle de Shanghai en 2024. Le modèle vise à résoudre l'incompatibilité entre la compréhension des images chimiques et l'analyse de texte. En combinant les avantages du Visual Transformer (ViT), du Multi-layer Perceptron (MLP) et du Large Language Model (LLM), il permet un raisonnement complet des images chimiques et du texte. ChemVLM est basé sur l'architecture VIT-MLP-LLM, adopte ChemLLM-20B comme modèle de base à grande échelle, améliore la capacité du modèle à comprendre et à utiliser les connaissances textuelles chimiques et utilise InternVIT-6B comme encodeur d'image. De plus, l’équipe de recherche a soigneusement sélectionné des données de haute qualité, notamment des molécules, des formules de réaction et des données de tests chimiques dans le domaine de la chimie, et a construit un ensemble de données de questions-réponses multimodales bilingues pour améliorer encore les performances du modèle.

Étapes de course

1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面(由于模型较大,成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面)
2. 可以选择设置相关采样参数(不同的采样参数效果可能不同),然后上传化学图像继续与模型进行对话,

例如下图
点击提交即可看到模型输出结果