Command Palette
Search for a command to run...
DeepSeek-V2-Lite-Chat의 원클릭 배포
이 튜토리얼은 DeepSeek-V2-Lite-Chat의 원클릭 배포 데모입니다. 컨테이너를 복제하고 시작하고, 생성된 API 주소를 직접 복사하기만 하면 모델의 추론을 경험할 수 있습니다.
1. 모델 소개
DeepSeek-V2는 경제적인 학습과 효율적인 추론을 특징으로 하는 강력한 전문가 혼합(MoE) 언어 모델입니다. 총 236B개의 매개변수가 포함되어 있으며, 각 토큰은 21B개의 매개변수를 활성화합니다. DeepSeek 67B와 비교했을 때 DeepSeek-V2는 학습 비용을 42.5% 절감하고, KV 캐시를 93.3% 줄이고, 최대 생성 처리량을 5.76배 증가시키는 동시에 더 강력한 성능을 달성했습니다.
2. 평가 결과
| 기준 | 도메인 | QWen1.5 72B 채팅 | 믹스트랄 8x22B | LLaMA3 70B 지시 | DeepSeek-V1 채팅(SFT) | DeepSeek-V2 채팅(SFT) | DeepSeek-V2 채팅(RL) |
|---|---|---|---|---|---|---|---|
| MMLU | 영어 | 76.2 | 77.8 | 80.3 | 71.1 | 78.4 | 77.8 |
| 비비에이치 | 영어 | 65.9 | 78.4 | 80.1 | 71.7 | 81.3 | 79.7 |
| C-평가 | 영어 | 82.2 | 60.0 | 67.9 | 65.2 | 80.9 | 78.0 |
| CMMLU | 영어 | 82.9 | 61.0 | 70.7 | 67.8 | 82.4 | 81.6 |
| 휴먼에벌 | 암호 | 68.9 | 75.0 | 76.2 | 73.8 | 76.8 | 81.1 |
| MBPP | 암호 | 52.2 | 64.4 | 69.8 | 61.4 | 70.4 | 72.0 |
| 라이브코드벤치(0901-0401) | 암호 | 18.8 | 25.0 | 30.5 | 18.3 | 28.7 | 32.5 |
| GSM8K | 수학 | 81.9 | 87.9 | 93.2 | 84.1 | 90.8 | 92.2 |
| 수학 | 수학 | 40.6 | 49.8 | 48.5 | 32.6 | 52.7 | 53.9 |
3. 사용 방법
이 튜토리얼에서는 모델과 환경을 배포했습니다. 튜토리얼의 설명에 따라 추론 대화를 위해 대형 모델을 직접 사용할 수 있습니다. 구체적인 튜토리얼은 다음과 같습니다.
1단계: 컨테이너 복제 및 시작
컨테이너를 성공적으로 복제하고 시작하면 이 인터페이스가 표시됩니다. 모델이 로드될 때까지 12초 정도 기다린 후 오른쪽에 있는 API 주소를 브라우저에 복사합니다. 
2단계: 웹사이트에 들어가기
웹페이지에 접속 후, 대형 모델과 통신이 가능합니다.(관련 매개변수는 디버깅이 완료되어 별도의 조정이 필요하지 않습니다.) 
토론 및 교류
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔 및 [튜토리얼 교환]에 댓글을 남겨 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
