Cambrian-1 是一个以视觉为中心的方法设计的多模态 llm (mllm) 家族。虽然强大的语言模型可以增强多模态能力,但视觉组件的设计选择往往没有得到充分的探索,并且与视觉表示学习研究脱节。
Cambrian-1 是围绕五个关键支柱构建的,每个支柱都为 mlms 的设计空间提供了重要的见解:
Cambrian-1 项目网站:https://cambrian-mllm.github.io/#visual-representation
Model | # Vis. Tok. | MMB | SQA-I | MathVistaM | ChartQA | MMVP |
---|---|---|---|---|---|---|
GPT-4V | UNK | 75.8 | – | 49.9 | 78.5 | 50.0 |
Gemini-1.0 Pro | UNK | 73.6 | – | 45.2 | – | – |
Gemini-1.5 Pro | UNK | – | – | 52.1 | 81.3 | – |
Grok-1.5 | UNK | – | – | 52.8 | 76.1 | – |
MM-1-8B | 144 | 72.3 | 72.6 | 35.9 | – | – |
MM-1-30B | 144 | 75.1 | 81.0 | 39.4 | – | – |
Base LLM: LLaMA3-8B-Instruct | ||||||
Mini-Gemini-HD-8B | 2880 | 72.7 | 75.1 | 37.0 | 59.1 | 18.7 |
LLaVA-NeXT-8B | 2880 | 72.1 | 72.8 | 36.3 | 69.5 | 38.7 |
Cambrian-1-8B | 576 | 75.9 | 80.4 | 49.0 | 73.3 | 51.3 |
Base LLM: Vicuna1.5-13B | ||||||
Mini-Gemini-HD-13B | 2880 | 68.6 | 71.9 | 37.0 | 56.6 | 19.3 |
LLaVA-NeXT-13B | 2880 | 70.0 | 73.5 | 35.1 | 62.2 | 36.0 |
Cambrian-1-13B | 576 | 75.7 | 79.3 | 48.0 | 73.8 | 41.3 |
Base LLM: Hermes2-Yi-34B | ||||||
Mini-Gemini-HD-34B | 2880 | 80.6 | 77.7 | 43.4 | 67.6 | 37.3 |
LLaVA-NeXT-34B | 2880 | 79.3 | 81.8 | 46.5 | 68.7 | 47.3 |
Cambrian-1-34B | 576 | 81.4 | 85.6 | 53.2 | 75.6 | 52.7 |
本教程已经将模型与环境部署完毕,大家可根据教程指引直接使用大模型进行推理对话。具体教程如下:
bash setup.sh
source ~/.bashrc
bash control.sh
bash gradio.sh
,点击页面上生成的链接即可进入模型界面bash model.sh
。当出现「Uvicorn running on …」时,回到已经打开的 Gradio 网页界面,刷新后可以看到模型已经完成了部署。随后即可上传图片和提示词来与模型对话。其中模型中还有多个可供用户调整的参数。