Bereitstellung Von ChemVLM-26B Per Mausklick
ChemVLM: Die Leistungsfähigkeit großer multimodaler Sprachmodelle in der Chemie erkunden
Einführung in das Tutorial
ChemVLM ist das erste Open-Source-multimodale Sprachmodell im großen Maßstab für den Bereich Chemie, das 2024 vom Shanghai Artificial Intelligence Laboratory eingeführt wurde. Das Modell zielt darauf ab, die Inkompatibilität zwischen dem Verständnis chemischer Bilder und der Textanalyse zu lösen. Durch die Kombination der Vorteile von Visual Transformer (ViT), Multi-Layer Perceptron (MLP) und Large Language Model (LLM) wird eine umfassende Schlussfolgerung aus chemischen Bildern und Texten erreicht. ChemVLM basiert auf der VIT-MLP-LLM-Architektur, übernimmt ChemLLM-20B als grundlegendes Großmodell, verbessert die Fähigkeit des Modells, chemisches Textwissen zu verstehen und zu nutzen, und verwendet InternVIT-6B als Bildcodierer. Darüber hinaus wählte das Forschungsteam sorgfältig hochwertige Daten aus dem Bereich der Chemie aus, darunter Moleküle, Reaktionsformeln und chemische Testdaten, und erstellte einen zweisprachigen multimodalen Frage-Antwort-Datensatz, um die Modellleistung weiter zu verbessern.
Schritte ausführen
1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面(由于模型较大,成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面)

2. 可以选择设置相关采样参数(不同的采样参数效果可能不同),然后上传化学图像继续与模型进行对话,
例如下图

点击提交即可看到模型输出结果
