نشر ChemVLM-26B بنقرة واحدة
ChemVLM: استكشاف قوة نماذج اللغة متعددة الوسائط الكبيرة في الكيمياء
مقدمة البرنامج التعليمي
ChemVLM هو أول نموذج لغوي واسع النطاق متعدد الوسائط مفتوح المصدر لمجال الكيمياء أطلقه مختبر الذكاء الاصطناعي في شنغهاي في عام 2024. يهدف النموذج إلى حل عدم التوافق بين فهم الصور الكيميائية وتحليل النصوص. من خلال الجمع بين مزايا المحول المرئي (ViT) والإدراك متعدد الطبقات (MLP) ونموذج اللغة الكبير (LLM)، فإنه يحقق التفكير الشامل للصور والنصوص الكيميائية. يعتمد ChemVLM على بنية VIT-MLP-LLM، ويتبنى ChemLLM-20B كنموذج أساسي واسع النطاق، ويعزز قدرة النموذج على فهم واستخدام المعرفة النصية الكيميائية، ويستخدم InternVIT-6B كمشفر للصور. بالإضافة إلى ذلك، قام فريق البحث باختيار بيانات عالية الجودة بعناية بما في ذلك الجزيئات وصيغ التفاعل وبيانات اختبار الكيمياء من مجال الكيمياء، وقاموا ببناء مجموعة بيانات ثنائية اللغة ومتعددة الوسائط للإجابة على الأسئلة لتحسين أداء النموذج بشكل أكبر.
خطوات التشغيل
1. 克隆并成功启动容器后点击 API 地址即可进入 Web 界面(由于模型较大,成功启动容器后需要等待约 2 分钟才会在 API 地址显示 Web 界面)

2. 可以选择设置相关采样参数(不同的采样参数效果可能不同),然后上传化学图像继续与模型进行对话,
例如下图

点击提交即可看到模型输出结果
