HyperAI

1. Introduction au tutoriel

MiniCPM-V 4.0 est un modèle end-side à grande échelle extrêmement performant, rendu open source par le Laboratoire de traitement du langage naturel de l'Université Tsinghua et Mianbi Intelligence en août 2025. MiniCPM-V 4.0 est basé sur SigLIP2-400M et MiniCPM4-3B, avec un nombre total de paramètres de 4,1 milliards. Il hérite des puissantes performances de compréhension d'images uniques, multi-images et vidéo de MiniCPM-V 2.6, et améliore considérablement son efficacité. Mianbi Intelligence a également rendu open source simultanément des applications iOS pour iPhone et iPad. Lors de l'évaluation OpenCompass, les capacités de compréhension d'images de MiniCPM-V 4.0 ont surpassé celles de GPT-4.1-mini-20250414, Qwen2.5-VL-3B-Instruct et InternVL2.5-8B. Les résultats de l'article sont les suivants :MiniCPM-V : un MLLM de niveau GPT-4V sur votre téléphone".

Ce tutoriel utilise une seule carte graphique RTX 4090 comme ressource de calcul. Trois exemples sont fournis à titre de test : Discussion avec une ou plusieurs images, Discussion avec vidéo et Quelques prises de vue.

2. Affichage des effets

Déployer MiniCPM-V 4.0 sur iPhone 16 Pro Max,Démo iOSLa vidéo de démonstration est un enregistrement d'écran brut et non édité :

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Cliquez sur « Comment utiliser » pour afficher le guide d’utilisation.

1. Discuter avec une ou plusieurs images

Paramètres spécifiques :

Type de décodage :
- Recherche de faisceau : une méthode de décodage hautement déterministe qui tente de retenir les séquences candidates les plus probables. Elle est particulièrement adaptée aux scénarios exigeant des résultats précis et cohérents.
- Échantillonnage : Échantillonnage aléatoire du mot suivant selon une distribution de probabilité. Le résultat est plus créatif, mais peut être instable.

2. Chat vidéo

3. Quelques coups

Exemple d'apprentissage

Paramètres spécifiques :

Utilisateur : saisissez le champ à prédire ou à apprendre pour cet échantillon.
Assistant : Saisissez la valeur correspondant au champ à apprendre pour cet échantillon.

Prédiction des résultats

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={Nat Commun 16, 5509 (2025)},
  year={2025}
}
@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}