Command Palette
Search for a command to run...
MiniCPM-V 4.5: 가장 강력한 엣지 투 엣지 멀티모달 모델
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

MiniCPM-V 4.5는 칭화대학교 자연어처리 연구실과 Wallfacer AI가 협력하여 2025년 8월에 오픈소스로 공개한 매우 효율적인 엣지 AI 모델입니다. MiniCPM-V 4.5는 단 8바이트의 파라미터를 사용합니다. 이 모델은 이미지, 비디오, OCR 등 다양한 분야에서 뛰어난 성능을 보여주며, 특히 고주사율 비디오 이해 분야에서 획기적인 성과를 거두었습니다. 고주사율 비디오를 처리하고 콘텐츠를 정확하게 인식할 수 있습니다. 또한 성능과 응답 속도의 균형을 맞춘 하이브리드 추론 모드를 지원합니다. MiniCPM-V 4.5는 낮은 메모리 사용량과 빠른 추론 속도로 엣지 환경에 최적화되어 있으며, 자동차 시스템, 로봇 및 기타 장치에 적용하기에 적합합니다. 엣지 AI 개발의 새로운 기준을 제시합니다. 관련 연구 논문은 온라인에서 확인할 수 있습니다. MiniCPM-V: 휴대폰에서 사용하는 GPT-4V 레벨 MLLM .
이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.
2. 효과 표시
이미지 이해

다중 이미지 비교

OCR 텍스트 추출

비디오 이해

3. 작업 단계
1. 컨테이너를 시작하세요

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@article{yao2024minicpm,
title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
journal={arXiv preprint arXiv:2408.01800},
year={2024}
}