HyperAI초신경

Cambrian-1 데모를 온라인으로 실행하세요

Cambrian-1은 비전 중심 접근 방식으로 설계된 다중 모드 LLM(MLLM) 제품군입니다. 강력한 언어 모델은 다중 모드 기능을 향상시킬 수 있지만, 시각적 구성요소의 디자인 선택은 종종 충분히 탐구되지 않고 시각적 표현 학습 연구와 맞지 않습니다.

Cambrian-1은 5가지 핵심 기둥을 중심으로 구성되었으며, 각 기둥은 MLM의 디자인 공간에 대한 중요한 통찰력을 제공합니다.

  • 시각적 표현: 연구팀은 다양한 시각적 인코더와 그 조합을 탐구했습니다.
  • 커넥터 설계: 연구팀은 토큰 수를 줄이는 동시에 여러 모델의 시각적 특징을 통합하는 새로운 역동적이고 공간 인식 커넥터를 설계했습니다.
  • 지시 조정 데이터: 연구팀은 공공 리소스에서 고품질의 시각적 지시 조정 데이터를 큐레이팅하여 균형 잡힌 분배의 중요성을 강조합니다.
  • 교육 튜닝 요리책: 연구팀은 교육 튜닝 전략과 관행을 논의합니다.
  • 벤치마크: 연구팀은 기존의 MLM 벤치마크를 검토하고 새로운 비전 중심 벤치마크인 "CV-Bench"를 도입했습니다.

캄브리아기-1 프로젝트 웹사이트:https://cambrian-mllm.github.io/#visual-representation

모델 성능

모델# 비스 톡.엠비SQA-1매스비스타M차트QAMMVP
GPT-4VUNK75.849.978.550.0
제미니-1.0 프로UNK73.645.2
제미니-1.5 프로UNK52.181.3
그록-1.5UNK52.876.1
MM-1-8B14472.372.635.9
MM-1-30B14475.181.039.4
기본 LLM: LLaMA3-8B-Instruct
미니-제미니-HD-8B288072.775.137.059.118.7
LLaVA-NeXT-8B288072.172.836.369.538.7
캄브리아기-1-8B57675.980.449.073.351.3
기본 LLM: 비쿠냐 1.5-13B
미니-제미니-HD-13B288068.671.937.056.619.3
LLaVA-NeXT-13B288070.073.535.162.236.0
캄브리아기-1-13B57675.779.348.073.841.3
기본 LLM: Hermes2-Yi-34B
미니-제미니-HD-34B288080.677.743.467.637.3
LLaVA-NeXT-34B288079.381.846.568.747.3
캄브리아기-1-34B57681.485.653.275.652.7

추론 단계 배포

이 튜토리얼에서는 모델과 환경을 배포했습니다. 튜토리얼의 설명에 따라 추론 대화를 위해 대형 모델을 직접 사용할 수 있습니다. 구체적인 튜토리얼은 다음과 같습니다.

1. 초기 설정

1. 리소스 구성 후 작업공간을 엽니다.

1

2. 터미널을 열고 다음 명령을 입력하세요. bash setup.sh

2

3. 시스템이 .bashrc에 환경 변수가 추가됨을 출력한 후 다음 명령을 입력하십시오. source ~/.bashrc


2. 컨트롤러를 시작합니다

4. 초기화가 완료되면 터미널에 명령어를 입력하세요. bash control.sh

3

3. 인터페이스를 엽니다

5. 약 15초 정도 기다린 후 열어주세요.새로운 터미널, 명령을 입력하세요 bash gradio.sh, 페이지에 생성된 링크를 클릭하여 모델 인터페이스로 들어갑니다.

6. 지금은 모델 인터페이스에서 선택할 수 있는 모델이 없다는 점에 유의하세요. 아직 모델을 구성하지 않았기 때문입니다. 이 시점에서는 네 번째 단계가 필요합니다.


4. 모델 구성

7. 다른 것을 엽니다새로운 터미널 그리고 명령을 입력하세요 bash model.sh . "Uvicorn이 실행 중 ..."이라는 메시지가 나타나면 열려 있는 Gradio 웹 인터페이스로 돌아가서 새로 고침하여 모델이 배포되었는지 확인하세요. 그런 다음 사진을 업로드하고 모델과 대화하라는 메시지를 표시할 수 있습니다.

사용자가 조정할 수 있는 여러 매개변수가 모델에 있습니다.

  • 온도는 출력 콘텐츠의 창의성과 무작위성에 영향을 미칠 수 있습니다.
  • Top p는 후보 단어 집합의 크기를 제어하여 생성된 텍스트의 품질과 다양성에 영향을 미칠 수 있습니다.
  • 최대 출력 토큰은 최대 출력 토큰 수를 변경할 수 있습니다.