在线运行寒武纪 1 号 Cambrian-1 Demo


Cambrian-1 是一个以视觉为中心的方法设计的多模态 llm (mllm) 家族。虽然强大的语言模型可以增强多模态能力,但视觉组件的设计选择往往没有得到充分的探索,并且与视觉表示学习研究脱节。
Cambrian-1 是围绕五个关键支柱构建的,每个支柱都为 mlms 的设计空间提供了重要的见解:
- 视觉表示: 研究团队探索了各种视觉编码器及其组合。
- 连接器设计: 研究团队设计了一个新的动态和空间感知连接器,它集成了几个模型的视觉特征,同时减少了 tokens 的数量。
- 指令调优数据: 研究团队从公共资源中策划高质量的视觉指令调优数据,强调分布平衡的重要性。
- 指令调优食谱: 研究团队讨论指令调优策略和实践。
- 基准测试: 研究团队检查了现有的 mlm 基准,并引入一个新的以视觉为中心的基准测试 “CV-Bench” 。
Cambrian-1 项目网站:https://cambrian-mllm.github.io/#visual-representation
模型表现
Model | # Vis. Tok. | MMB | SQA-I | MathVistaM | ChartQA | MMVP |
---|---|---|---|---|---|---|
GPT-4V | UNK | 75.8 | – | 49.9 | 78.5 | 50.0 |
Gemini-1.0 Pro | UNK | 73.6 | – | 45.2 | – | – |
Gemini-1.5 Pro | UNK | – | – | 52.1 | 81.3 | – |
Grok-1.5 | UNK | – | – | 52.8 | 76.1 | – |
MM-1-8B | 144 | 72.3 | 72.6 | 35.9 | – | – |
MM-1-30B | 144 | 75.1 | 81.0 | 39.4 | – | – |
Base LLM: LLaMA3-8B-Instruct | ||||||
Mini-Gemini-HD-8B | 2880 | 72.7 | 75.1 | 37.0 | 59.1 | 18.7 |
LLaVA-NeXT-8B | 2880 | 72.1 | 72.8 | 36.3 | 69.5 | 38.7 |
Cambrian-1-8B | 576 | 75.9 | 80.4 | 49.0 | 73.3 | 51.3 |
Base LLM: Vicuna1.5-13B | ||||||
Mini-Gemini-HD-13B | 2880 | 68.6 | 71.9 | 37.0 | 56.6 | 19.3 |
LLaVA-NeXT-13B | 2880 | 70.0 | 73.5 | 35.1 | 62.2 | 36.0 |
Cambrian-1-13B | 576 | 75.7 | 79.3 | 48.0 | 73.8 | 41.3 |
Base LLM: Hermes2-Yi-34B | ||||||
Mini-Gemini-HD-34B | 2880 | 80.6 | 77.7 | 43.4 | 67.6 | 37.3 |
LLaVA-NeXT-34B | 2880 | 79.3 | 81.8 | 46.5 | 68.7 | 47.3 |
Cambrian-1-34B | 576 | 81.4 | 85.6 | 53.2 | 75.6 | 52.7 |
部署推理步骤
本教程已经将模型与环境部署完毕,大家可根据教程指引直接使用大模型进行推理对话。具体教程如下:
一、初始设置
1. 待资源配置后打开工作空间

2. 打开终端,并输入命令 bash setup.sh


3. 系统输出 Environment variable added to .bashrc 后,输入指令 source ~/.bashrc

二、启动控制器
4. 完成初始化后,在终端中输入命令 bash control.sh

三、打开界面
5. 稍等约 15 秒后打开一个新的终端,并输入命令 bash gradio.sh
,点击页面上生成的链接即可进入模型界面

6. 这时注意到模型界面中并没有供我们选择的模型,这是因为我们还没有对模型进行配置。此时需要进行第四个步骤。

四、模型配置
7. 再次打开一个新的终端 并输入命令 bash model.sh
。当出现「Uvicorn running on …」时,回到已经打开的 Gradio 网页界面,刷新后可以看到模型已经完成了部署。随后即可上传图片和提示词来与模型对话。


其中模型中还有多个可供用户调整的参数。
- temperature 可以影响输出内容的创意性和随机性,
- Top p 可控制候选词集合的大小,影响生成文本的质量和多样性
- Max output tokens 则可以改变最大的输出 tokens 数量。
