HyperAI초신경

홈 뉴스 최신 연구 논문 튜토리얼 데이터셋 컨퍼런스 백과사전 SOTA LLM 모델

한국어

HyperAI초신경

Cambrian-1 데모를 온라인으로 실행하세요

온라인에서 이 튜토리얼 실행하기

Cambrian-1은 비전 중심 접근 방식으로 설계된 다중 모드 LLM(MLLM) 제품군입니다. 강력한 언어 모델은 다중 모드 기능을 향상시킬 수 있지만, 시각적 구성요소의 디자인 선택은 종종 충분히 탐구되지 않고 시각적 표현 학습 연구와 맞지 않습니다.

Cambrian-1은 5가지 핵심 기둥을 중심으로 구성되었으며, 각 기둥은 MLM의 디자인 공간에 대한 중요한 통찰력을 제공합니다.

시각적 표현: 연구팀은 다양한 시각적 인코더와 그 조합을 탐구했습니다.
커넥터 설계: 연구팀은 토큰 수를 줄이는 동시에 여러 모델의 시각적 특징을 통합하는 새로운 역동적이고 공간 인식 커넥터를 설계했습니다.
지시 조정 데이터: 연구팀은 공공 리소스에서 고품질의 시각적 지시 조정 데이터를 큐레이팅하여 균형 잡힌 분배의 중요성을 강조합니다.
교육 튜닝 요리책: 연구팀은 교육 튜닝 전략과 관행을 논의합니다.
벤치마크: 연구팀은 기존의 MLM 벤치마크를 검토하고 새로운 비전 중심 벤치마크인 "CV-Bench"를 도입했습니다.

캄브리아기-1 프로젝트 웹사이트:https://cambrian-mllm.github.io/#visual-representation

모델 성능

모델	# 비스 톡.	엠비	SQA-1	매스비스타M	차트QA	MMVP
GPT-4V	UNK	75.8	–	49.9	78.5	50.0
제미니-1.0 프로	UNK	73.6	–	45.2	–	–
제미니-1.5 프로	UNK	–	–	52.1	81.3	–
그록-1.5	UNK	–	–	52.8	76.1	–
MM-1-8B	144	72.3	72.6	35.9	–	–
MM-1-30B	144	75.1	81.0	39.4	–	–
기본 LLM: LLaMA3-8B-Instruct
미니-제미니-HD-8B	2880	72.7	75.1	37.0	59.1	18.7
LLaVA-NeXT-8B	2880	72.1	72.8	36.3	69.5	38.7
캄브리아기-1-8B	576	75.9	80.4	49.0	73.3	51.3
기본 LLM: 비쿠냐 1.5-13B
미니-제미니-HD-13B	2880	68.6	71.9	37.0	56.6	19.3
LLaVA-NeXT-13B	2880	70.0	73.5	35.1	62.2	36.0
캄브리아기-1-13B	576	75.7	79.3	48.0	73.8	41.3
기본 LLM: Hermes2-Yi-34B
미니-제미니-HD-34B	2880	80.6	77.7	43.4	67.6	37.3
LLaVA-NeXT-34B	2880	79.3	81.8	46.5	68.7	47.3
캄브리아기-1-34B	576	81.4	85.6	53.2	75.6	52.7

추론 단계 배포

이 튜토리얼에서는 모델과 환경을 배포했습니다. 튜토리얼의 설명에 따라 추론 대화를 위해 대형 모델을 직접 사용할 수 있습니다. 구체적인 튜토리얼은 다음과 같습니다.

1. 초기 설정

1. 리소스 구성 후 작업공간을 엽니다.

2. 터미널을 열고 다음 명령을 입력하세요. `bash setup.sh`

3. 시스템이 .bashrc에 환경 변수가 추가됨을 출력한 후 다음 명령을 입력하십시오. `source ~/.bashrc`

2. 컨트롤러를 시작합니다

4. 초기화가 완료되면 터미널에 명령어를 입력하세요. `bash control.sh`

3. 인터페이스를 엽니다

5. 약 15초 정도 기다린 후 열어주세요.새로운 터미널, 명령을 입력하세요 `bash gradio.sh`, 페이지에 생성된 링크를 클릭하여 모델 인터페이스로 들어갑니다.

6. 지금은 모델 인터페이스에서 선택할 수 있는 모델이 없다는 점에 유의하세요. 아직 모델을 구성하지 않았기 때문입니다. 이 시점에서는 네 번째 단계가 필요합니다.

4. 모델 구성

7. 다른 것을 엽니다새로운 터미널 그리고 명령을 입력하세요 `bash model.sh` . "Uvicorn이 실행 중 ..."이라는 메시지가 나타나면 열려 있는 Gradio 웹 인터페이스로 돌아가서 새로 고침하여 모델이 배포되었는지 확인하세요. 그런 다음 사진을 업로드하고 모델과 대화하라는 메시지를 표시할 수 있습니다.

사용자가 조정할 수 있는 여러 매개변수가 모델에 있습니다.

온도는 출력 콘텐츠의 창의성과 무작위성에 영향을 미칠 수 있습니다.
Top p는 후보 단어 집합의 크기를 제어하여 생성된 텍스트의 품질과 다양성에 영향을 미칠 수 있습니다.
최대 출력 토큰은 최대 출력 토큰 수를 변경할 수 있습니다.