MiniCPM-V4.0 : Modèle De Bout En Bout À Grande Échelle Extrêmement Efficace
1. Introduction au tutoriel

MiniCPM-V 4.0 est un modèle end-side à grande échelle extrêmement performant, rendu open source par le Laboratoire de traitement du langage naturel de l'Université Tsinghua et Mianbi Intelligence en août 2025. MiniCPM-V 4.0 est basé sur SigLIP2-400M et MiniCPM4-3B, avec un nombre total de paramètres de 4,1 milliards. Il hérite des puissantes performances de compréhension d'images uniques, multi-images et vidéo de MiniCPM-V 2.6, et améliore considérablement son efficacité. Mianbi Intelligence a également rendu open source simultanément des applications iOS pour iPhone et iPad. Lors de l'évaluation OpenCompass, les capacités de compréhension d'images de MiniCPM-V 4.0 ont surpassé celles de GPT-4.1-mini-20250414, Qwen2.5-VL-3B-Instruct et InternVL2.5-8B. Les résultats de l'article sont les suivants :MiniCPM-V : un MLLM de niveau GPT-4V sur votre téléphone".
Ce tutoriel utilise une seule carte graphique RTX 4090 comme ressource de calcul. Trois exemples sont fournis à titre de test : Discussion avec une ou plusieurs images, Discussion avec vidéo et Quelques prises de vue.
2. Affichage des effets

Déployer MiniCPM-V 4.0 sur iPhone 16 Pro Max,Démo iOSLa vidéo de démonstration est un enregistrement d'écran brut et non édité :

3. Étapes de l'opération
1. Démarrez le conteneur

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.
Cliquez sur « Comment utiliser » pour afficher le guide d’utilisation.
1. Discuter avec une ou plusieurs images

Paramètres spécifiques :
- Type de décodage :
- Recherche de faisceau : une méthode de décodage hautement déterministe qui tente de retenir les séquences candidates les plus probables. Elle est particulièrement adaptée aux scénarios exigeant des résultats précis et cohérents.
- Échantillonnage : Échantillonnage aléatoire du mot suivant selon une distribution de probabilité. Le résultat est plus créatif, mais peut être instable.
2. Chat vidéo

3. Quelques coups
Exemple d'apprentissage

Paramètres spécifiques :
- Utilisateur : saisissez le champ à prédire ou à apprendre pour cet échantillon.
- Assistant : Saisissez la valeur correspondant au champ à apprendre pour cet échantillon.
Prédiction des résultats

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@article{yao2024minicpm,
title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
journal={Nat Commun 16, 5509 (2025)},
year={2025}
}
@article{yao2024minicpm,
title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
journal={arXiv preprint arXiv:2408.01800},
year={2024}
}