HyperAIHyperAI

Command Palette

Search for a command to run...

MiniCPM-V 4.5: 가장 강력한 엣지 투 엣지 멀티모달 모델

날짜

9달 전

조직

Tsinghua University(清华大学)
OpenBMB

태그

논문 URL

2408.01800

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다

MiniCPM-V 4.5는 칭화대학교 자연어처리 연구실과 Wallfacer AI가 협력하여 2025년 8월에 오픈소스로 공개한 매우 효율적인 엣지 AI 모델입니다. MiniCPM-V 4.5는 단 8바이트의 파라미터를 사용합니다. 이 모델은 이미지, 비디오, OCR 등 다양한 분야에서 뛰어난 성능을 보여주며, 특히 고주사율 비디오 이해 분야에서 획기적인 성과를 거두었습니다. 고주사율 비디오를 처리하고 콘텐츠를 정확하게 인식할 수 있습니다. 또한 성능과 응답 속도의 균형을 맞춘 하이브리드 추론 모드를 지원합니다. MiniCPM-V 4.5는 낮은 메모리 사용량과 빠른 추론 속도로 엣지 환경에 최적화되어 있으며, 자동차 시스템, 로봇 및 기타 장치에 적용하기에 적합합니다. 엣지 AI 개발의 새로운 기준을 제시합니다. 관련 연구 논문은 온라인에서 확인할 수 있습니다. MiniCPM-V: 휴대폰에서 사용하는 GPT-4V 레벨 MLLM .

이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.

2. 효과 표시

이미지 이해

다중 이미지 비교

OCR 텍스트 추출

비디오 이해

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp