HyperAI초신경

ChemVLM-26B의 원클릭 배포

ChemVLM: 화학 분야에서 대규모 다중 모드 언어 모델의 힘 탐구

튜토리얼 소개

ChemVLM은 상하이 인공지능 연구소가 2024년에 출시한 화학 분야 최초의 오픈 소스 멀티모달 대규모 언어 모델입니다. 이 모델은 화학적 이미지 이해와 텍스트 분석 간의 비호환성을 해결하는 것을 목표로 합니다. Visual Transformer(ViT), Multi-layer Perceptron(MLP), Large Language Model(LLM)의 장점을 결합하여 화학 이미지와 텍스트에 대한 포괄적인 추론을 실현합니다. ChemVLM은 VIT-MLP-LLM 아키텍처를 기반으로 하며, ChemLLM-20B를 기본 대규모 모델로 채택하고, 화학 텍스트 지식을 이해하고 활용하는 모델의 능력을 향상시키며, InternVIT-6B를 이미지 인코더로 사용합니다. 또한 연구팀은 화학 분야의 분자, 반응식, 화학 실험 데이터 등 고품질 데이터를 신중하게 선정하고, 모델 성능을 더욱 향상시키기 위해 이중 언어 다중 모드 질의응답 데이터 세트를 구축했습니다.

실행 단계

1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面(由于模型较大,成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面)
2. 可以选择设置相关采样参数(不同的采样参数效果可能不同),然后上传化学图像继续与模型进行对话,

例如下图
点击提交即可看到模型输出结果