MiniCPM-V 4.5: 가장 강력한 엣지 투 엣지 멀티모달 모델

1. 튜토리얼 소개

짓다

MiniCPM-V 4.5는 2025년 8월 칭화대학교 자연어 처리 연구실과 미안비 인텔리전스가 오픈소스로 공개한 매우 효율적인 대규모 엔드사이드 모델입니다. MiniCPM-V 4.5는 8B개의 매개변수를 가지고 있습니다. 이 모델은 사진, 비디오, OCR 등 여러 분야에서 뛰어난 성능을 보이며, 특히 고주사율 비디오 이해에 탁월합니다. 고주사율 비디오를 처리하고 콘텐츠를 정확하게 식별할 수 있습니다. 또한, 성능과 응답 속도의 균형을 맞추기 위해 하이브리드 추론 모드를 지원합니다. MiniCPM-V 4.5는 엔드사이드 배포에 최적화되어 있으며, 비디오 메모리 사용량이 적고 추론 속도가 빠릅니다. 자동차 컴퓨터, 로봇 및 기타 장치에 적용하기에 적합하며, 엔드사이드 AI 개발의 새로운 기준을 제시합니다. 관련 논문 결과는 다음과 같습니다.MiniCPM-V: 휴대폰에서 사용하는 GPT-4V 레벨 MLLM".

이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.

2. 효과 표시

이미지 이해

다중 이미지 비교

OCR 텍스트 추출

비디오 이해

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}