Cambrian-1 데모를 온라인으로 실행하세요


Cambrian-1은 비전 중심 접근 방식으로 설계된 다중 모드 LLM(MLLM) 제품군입니다. 강력한 언어 모델은 다중 모드 기능을 향상시킬 수 있지만, 시각적 구성요소의 디자인 선택은 종종 충분히 탐구되지 않고 시각적 표현 학습 연구와 맞지 않습니다.
Cambrian-1은 5가지 핵심 기둥을 중심으로 구성되었으며, 각 기둥은 MLM의 디자인 공간에 대한 중요한 통찰력을 제공합니다.
- 시각적 표현: 연구팀은 다양한 시각적 인코더와 그 조합을 탐구했습니다.
- 커넥터 설계: 연구팀은 토큰 수를 줄이는 동시에 여러 모델의 시각적 특징을 통합하는 새로운 역동적이고 공간 인식 커넥터를 설계했습니다.
- 지시 조정 데이터: 연구팀은 공공 리소스에서 고품질의 시각적 지시 조정 데이터를 큐레이팅하여 균형 잡힌 분배의 중요성을 강조합니다.
- 교육 튜닝 요리책: 연구팀은 교육 튜닝 전략과 관행을 논의합니다.
- 벤치마크: 연구팀은 기존의 MLM 벤치마크를 검토하고 새로운 비전 중심 벤치마크인 "CV-Bench"를 도입했습니다.
캄브리아기-1 프로젝트 웹사이트:https://cambrian-mllm.github.io/#visual-representation
모델 성능
모델 | # 비스 톡. | 엠비 | SQA-1 | 매스비스타M | 차트QA | MMVP |
---|---|---|---|---|---|---|
GPT-4V | UNK | 75.8 | – | 49.9 | 78.5 | 50.0 |
제미니-1.0 프로 | UNK | 73.6 | – | 45.2 | – | – |
제미니-1.5 프로 | UNK | – | – | 52.1 | 81.3 | – |
그록-1.5 | UNK | – | – | 52.8 | 76.1 | – |
MM-1-8B | 144 | 72.3 | 72.6 | 35.9 | – | – |
MM-1-30B | 144 | 75.1 | 81.0 | 39.4 | – | – |
기본 LLM: LLaMA3-8B-Instruct | ||||||
미니-제미니-HD-8B | 2880 | 72.7 | 75.1 | 37.0 | 59.1 | 18.7 |
LLaVA-NeXT-8B | 2880 | 72.1 | 72.8 | 36.3 | 69.5 | 38.7 |
캄브리아기-1-8B | 576 | 75.9 | 80.4 | 49.0 | 73.3 | 51.3 |
기본 LLM: 비쿠냐 1.5-13B | ||||||
미니-제미니-HD-13B | 2880 | 68.6 | 71.9 | 37.0 | 56.6 | 19.3 |
LLaVA-NeXT-13B | 2880 | 70.0 | 73.5 | 35.1 | 62.2 | 36.0 |
캄브리아기-1-13B | 576 | 75.7 | 79.3 | 48.0 | 73.8 | 41.3 |
기본 LLM: Hermes2-Yi-34B | ||||||
미니-제미니-HD-34B | 2880 | 80.6 | 77.7 | 43.4 | 67.6 | 37.3 |
LLaVA-NeXT-34B | 2880 | 79.3 | 81.8 | 46.5 | 68.7 | 47.3 |
캄브리아기-1-34B | 576 | 81.4 | 85.6 | 53.2 | 75.6 | 52.7 |
추론 단계 배포
이 튜토리얼에서는 모델과 환경을 배포했습니다. 튜토리얼의 설명에 따라 추론 대화를 위해 대형 모델을 직접 사용할 수 있습니다. 구체적인 튜토리얼은 다음과 같습니다.
1. 초기 설정
1. 리소스 구성 후 작업공간을 엽니다.

2. 터미널을 열고 다음 명령을 입력하세요. bash setup.sh


3. 시스템이 .bashrc에 환경 변수가 추가됨을 출력한 후 다음 명령을 입력하십시오. source ~/.bashrc

2. 컨트롤러를 시작합니다
4. 초기화가 완료되면 터미널에 명령어를 입력하세요. bash control.sh

3. 인터페이스를 엽니다
5. 약 15초 정도 기다린 후 열어주세요.새로운 터미널, 명령을 입력하세요 bash gradio.sh
, 페이지에 생성된 링크를 클릭하여 모델 인터페이스로 들어갑니다.

6. 지금은 모델 인터페이스에서 선택할 수 있는 모델이 없다는 점에 유의하세요. 아직 모델을 구성하지 않았기 때문입니다. 이 시점에서는 네 번째 단계가 필요합니다.

4. 모델 구성
7. 다른 것을 엽니다새로운 터미널 그리고 명령을 입력하세요 bash model.sh
. "Uvicorn이 실행 중 ..."이라는 메시지가 나타나면 열려 있는 Gradio 웹 인터페이스로 돌아가서 새로 고침하여 모델이 배포되었는지 확인하세요. 그런 다음 사진을 업로드하고 모델과 대화하라는 메시지를 표시할 수 있습니다.


사용자가 조정할 수 있는 여러 매개변수가 모델에 있습니다.
- 온도는 출력 콘텐츠의 창의성과 무작위성에 영향을 미칠 수 있습니다.
- Top p는 후보 단어 집합의 크기를 제어하여 생성된 텍스트의 품질과 다양성에 영향을 미칠 수 있습니다.
- 최대 출력 토큰은 최대 출력 토큰 수를 변경할 수 있습니다.
