在线运行寒武纪 1 号 Cambrian-1 Demo

Cambrian-1 是一个以视觉为中心的方法设计的多模态 llm (mllm) 家族。虽然强大的语言模型可以增强多模态能力,但视觉组件的设计选择往往没有得到充分的探索,并且与视觉表示学习研究脱节。

Cambrian-1 是围绕五个关键支柱构建的,每个支柱都为 mlms 的设计空间提供了重要的见解:

  • 视觉表示: 研究团队探索了各种视觉编码器及其组合。
  • 连接器设计: 研究团队设计了一个新的动态和空间感知连接器,它集成了几个模型的视觉特征,同时减少了 tokens 的数量。
  • 指令调优数据: 研究团队从公共资源中策划高质量的视觉指令调优数据,强调分布平衡的重要性。
  • 指令调优食谱: 研究团队讨论指令调优策略和实践。
  • 基准测试: 研究团队检查了现有的 mlm 基准,并引入一个新的以视觉为中心的基准测试 “CV-Bench” 。

Cambrian-1 项目网站:https://cambrian-mllm.github.io/#visual-representation

模型表现

Model# Vis. Tok.MMBSQA-IMathVistaMChartQAMMVP
GPT-4VUNK75.849.978.550.0
Gemini-1.0 ProUNK73.645.2
Gemini-1.5 ProUNK52.181.3
Grok-1.5UNK52.876.1
MM-1-8B14472.372.635.9
MM-1-30B14475.181.039.4
Base LLM: LLaMA3-8B-Instruct
Mini-Gemini-HD-8B288072.775.137.059.118.7
LLaVA-NeXT-8B288072.172.836.369.538.7
Cambrian-1-8B57675.980.449.073.351.3
Base LLM: Vicuna1.5-13B
Mini-Gemini-HD-13B288068.671.937.056.619.3
LLaVA-NeXT-13B288070.073.535.162.236.0
Cambrian-1-13B57675.779.348.073.841.3
Base LLM: Hermes2-Yi-34B
Mini-Gemini-HD-34B288080.677.743.467.637.3
LLaVA-NeXT-34B288079.381.846.568.747.3
Cambrian-1-34B57681.485.653.275.652.7

部署推理步骤

本教程已经将模型与环境部署完毕,大家可根据教程指引直接使用大模型进行推理对话。具体教程如下:

一、初始设置

1. 待资源配置后打开工作空间

1

2. 打开终端,并输入命令 bash setup.sh

2

3. 系统输出 Environment variable added to .bashrc 后,输入指令 source ~/.bashrc


二、启动控制器

4. 完成初始化后,在终端中输入命令 bash control.sh

3

三、打开界面

5. 稍等约 15 秒后打开一个新的终端,并输入命令 bash gradio.sh,点击页面上生成的链接即可进入模型界面

6. 这时注意到模型界面中并没有供我们选择的模型,这是因为我们还没有对模型进行配置。此时需要进行第四个步骤。


四、模型配置

7. 再次打开一个新的终端 并输入命令 bash model.sh 。当出现「Uvicorn running on …」时,回到已经打开的 Gradio 网页界面,刷新后可以看到模型已经完成了部署。随后即可上传图片和提示词来与模型对话。

其中模型中还有多个可供用户调整的参数。

  • temperature 可以影响输出内容的创意性和随机性,
  • Top p 可控制候选词集合的大小,影响生成文本的质量和多样性
  • Max output tokens 则可以改变最大的输出 tokens 数量。