HyperAI超神经

首页资讯最新论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

在线运行寒武纪 1 号 Cambrian-1 Demo

在线运行此教程

Cambrian-1 是一个以视觉为中心的方法设计的多模态 llm (mllm) 家族。虽然强大的语言模型可以增强多模态能力，但视觉组件的设计选择往往没有得到充分的探索，并且与视觉表示学习研究脱节。

Cambrian-1 是围绕五个关键支柱构建的，每个支柱都为 mlms 的设计空间提供了重要的见解:

视觉表示: 研究团队探索了各种视觉编码器及其组合。
连接器设计: 研究团队设计了一个新的动态和空间感知连接器，它集成了几个模型的视觉特征，同时减少了 tokens 的数量。
指令调优数据: 研究团队从公共资源中策划高质量的视觉指令调优数据，强调分布平衡的重要性。
指令调优食谱: 研究团队讨论指令调优策略和实践。
基准测试: 研究团队检查了现有的 mlm 基准，并引入一个新的以视觉为中心的基准测试 “CV-Bench” 。

Cambrian-1 项目网站：https://cambrian-mllm.github.io/#visual-representation

模型表现

Model	# Vis. Tok.	MMB	SQA-I	MathVistaM	ChartQA	MMVP
GPT-4V	UNK	75.8	–	49.9	78.5	50.0
Gemini-1.0 Pro	UNK	73.6	–	45.2	–	–
Gemini-1.5 Pro	UNK	–	–	52.1	81.3	–
Grok-1.5	UNK	–	–	52.8	76.1	–
MM-1-8B	144	72.3	72.6	35.9	–	–
MM-1-30B	144	75.1	81.0	39.4	–	–
Base LLM: LLaMA3-8B-Instruct
Mini-Gemini-HD-8B	2880	72.7	75.1	37.0	59.1	18.7
LLaVA-NeXT-8B	2880	72.1	72.8	36.3	69.5	38.7
Cambrian-1-8B	576	75.9	80.4	49.0	73.3	51.3
Base LLM: Vicuna1.5-13B
Mini-Gemini-HD-13B	2880	68.6	71.9	37.0	56.6	19.3
LLaVA-NeXT-13B	2880	70.0	73.5	35.1	62.2	36.0
Cambrian-1-13B	576	75.7	79.3	48.0	73.8	41.3
Base LLM: Hermes2-Yi-34B
Mini-Gemini-HD-34B	2880	80.6	77.7	43.4	67.6	37.3
LLaVA-NeXT-34B	2880	79.3	81.8	46.5	68.7	47.3
Cambrian-1-34B	576	81.4	85.6	53.2	75.6	52.7

部署推理步骤

本教程已经将模型与环境部署完毕，大家可根据教程指引直接使用大模型进行推理对话。具体教程如下：

一、初始设置

1. 待资源配置后打开工作空间

2. 打开终端，并输入命令 `bash setup.sh`

3. 系统输出 Environment variable added to .bashrc 后，输入指令 `source ~/.bashrc`

二、启动控制器

4. 完成初始化后，在终端中输入命令 `bash control.sh`

三、打开界面

5. 稍等约 15 秒后打开一个新的终端，并输入命令 `bash gradio.sh`，点击页面上生成的链接即可进入模型界面

6. 这时注意到模型界面中并没有供我们选择的模型，这是因为我们还没有对模型进行配置。此时需要进行第四个步骤。

四、模型配置

7. 再次打开一个新的终端并输入命令 `bash model.sh` 。当出现「Uvicorn running on …」时，回到已经打开的 Gradio 网页界面，刷新后可以看到模型已经完成了部署。随后即可上传图片和提示词来与模型对话。

其中模型中还有多个可供用户调整的参数。

temperature 可以影响输出内容的创意性和随机性，
Top p 可控制候选词集合的大小，影响生成文本的质量和多样性
Max output tokens 则可以改变最大的输出 tokens 数量。