HyperAIHyperAI

MiniCPM-V 4.5 : Le Modèle Multimodal De Bout En Bout Le Plus Puissant

1. Introduction au tutoriel

Construire

MiniCPM-V 4.5 est un modèle end-side à grande échelle extrêmement performant, open source par le Laboratoire de traitement du langage naturel de l'Université Tsinghua et Mianbi Intelligence en août 2025. MiniCPM-V 4.5 possède 8 milliards de paramètres. Ce modèle offre d'excellentes performances dans de nombreux domaines tels que les images, les vidéos, l'OCR, etc., notamment pour la compréhension des vidéos à taux de rafraîchissement élevé. Il peut traiter des vidéos à taux de rafraîchissement élevé et identifier précisément le contenu. Le modèle prend en charge le mode d'inférence hybride pour équilibrer performances et temps de réponse. MiniCPM-V 4.5 est facile à déployer end-side, avec une faible consommation de mémoire vidéo et une vitesse d'inférence élevée. Il est adapté aux applications dans les ordinateurs de bord, les robots et autres appareils, établissant une nouvelle référence pour le développement de l'IA end-side. Les résultats de l'article sont :MiniCPM-V : un MLLM de niveau GPT-4V sur votre téléphone".

Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.

2. Affichage des effets

Compréhension de l'image

Comparaison multi-images

Extraction de texte OCR

Compréhension de la vidéo

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}