HyperAI超神経

ワンクリックで ChemVLM-26B を導入

ChemVLM: 化学におけるマルチモーダル大規模言語モデルの力の探求

チュートリアルの紹介

ChemVLM は、上海人工知能研究所が 2024 年に開始した化学分野初のオープンソース マルチモーダル大規模言語モデルです。このモデルは、ビジュアルトランスフォーマー (ViT)、多層パーセプトロン (MLP)、および大規模言語モデル (LLM) の利点を組み合わせることにより、化学画像の理解とテキスト分析の間の非互換性の問題を解決することを目的としています。総合的な推論。 ChemVLM は VIT-MLP-LLM アーキテクチャに基づいており、基本的な大規模モデルとして ChemLLM-20B を使用し、化学テキストの知識を理解して利用するモデルの能力を強化し、画像エンコーダーとして InternVIT-6B を使用します。さらに、研究チームは、分子、反応式、化学試験データなど、化学分野から高品質のデータを慎重に選択し、モデルのパフォーマンスをさらに向上させるために、バイリンガルのマルチモーダルな質問と回答のデータセットを構築しました。

ステップの実行

1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面(由于模型较大,成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面)
2. 可以选择设置相关采样参数(不同的采样参数效果可能不同),然后上传化学图像继续与模型进行对话,

例如下图
点击提交即可看到模型输出结果