HyperAIHyperAI

Command Palette

Search for a command to run...

MiniCPM-V4.0: 매우 효율적인 대규모 엔드투엔드 모델

날짜

9달 전

조직

Tsinghua University(清华大学)

태그

논문 URL

2408.01800

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다

MiniCPM-V 4.0은 칭화대학교 자연어처리 연구실과 Wallfacer Intelligence가 공동으로 개발하여 2025년 8월에 오픈소스로 공개한 매우 효율적인 엣지사이드 대형 모델입니다. MiniCPM-V 4.0은 SigLIP2-400M과 MiniCPM4-3B를 기반으로 구축되었으며, 총 파라미터 수는 41억 개에 달합니다. MiniCPM-V 2.6의 강력한 단일 이미지, 다중 이미지 및 비디오 이해 성능을 계승하면서 효율성을 크게 향상시켰습니다. Wallfacer Intelligence는 iPhone 및 iPad용 iOS 애플리케이션도 동시에 오픈소스로 공개했습니다. OpenCompass 벤치마크에서 MiniCPM-V 4.0의 이미지 이해 능력은 GPT-4.1-mini-20250414, Qwen2.5-VL-3B-Instruct, InternVL2.5-8B를 능가합니다. 관련 연구 논문은 온라인에서 확인할 수 있습니다. MiniCPM-V: 휴대폰에서 사용하는 GPT-4V 레벨 MLLM .

이 튜토리얼에서는 단일 RTX 4090 그래픽 카드를 컴퓨팅 리소스로 사용합니다. 테스트를 위해 단일 또는 여러 이미지 채팅, 비디오 채팅, 그리고 소수의 사진으로 채팅의 세 가지 예시가 제공됩니다.

2. 효과 표시

수학

iPhone 16 Pro Max에 MiniCPM-V 4.0을 배포하세요.iOS 데모데모 영상은 편집되지 않은 원시 화면 녹화 영상입니다.

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

사용 방법"을 클릭하면 사용 가이드를 볼 수 있습니다.

1. 단일 또는 여러 이미지로 채팅

구체적인 매개변수:

  • 디코딩 유형:
    • 빔 검색: 가장 가능성이 높은 후보 시퀀스를 보존하는 매우 결정론적인 디코딩 방법입니다. 정확하고 일관된 출력이 필요한 상황에 더 적합합니다.
    • 샘플링: 확률 분포에 따라 다음 단어를 무작위로 샘플링하는 방식입니다. 출력 결과는 더 창의적이지만 불안정할 수 있습니다.

2. 영상 채팅

3. 몇 발의 총

샘플 학습

구체적인 매개변수:

  • 사용자: 이 샘플에 대해 예측하거나 학습할 필드를 입력하세요.
  • 도우미: 이 샘플에 대해 학습할 필드에 해당하는 값을 입력하세요.

결과 예측

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={Nat Commun 16, 5509 (2025)},
  year={2025}
}
@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp