HyperAIHyperAI

Command Palette

Search for a command to run...

MiniCPM-V 4.5 : Le Modèle Multimodal De Bout En Bout Le Plus Puissant

Date

il y a 5 mois

Size

343.55 MB

Tags

License

Apache 2.0

Paper URL

2408.01800

1. Introduction au tutoriel

Construire

MiniCPM-V 4.5 est un modèle d'IA embarquée extrêmement performant, open source depuis août 2025, développé par le Laboratoire de traitement automatique du langage naturel de l'Université Tsinghua en collaboration avec Wallfacer AI. Ce modèle utilise 8 octets de paramètres. Il excelle dans de nombreux domaines, notamment le traitement d'images, de vidéos et la reconnaissance optique de caractères (OCR), et réalise des avancées majeures, en particulier dans la compréhension de vidéos à fréquence de rafraîchissement élevée. Il est capable de traiter ces vidéos et d'en reconnaître le contenu avec précision. Le modèle prend en charge un mode d'inférence hybride, offrant un équilibre optimal entre performance et rapidité de réponse. MiniCPM-V 4.5 est facilement déployable en périphérie de réseau, avec une faible consommation de mémoire et une vitesse d'inférence élevée, ce qui le rend idéal pour les applications embarquées dans les véhicules, les robots et autres appareils, établissant ainsi une nouvelle référence pour le développement de l'IA embarquée. Des articles de recherche associés sont disponibles. MiniCPM-V : un MLLM de niveau GPT-4V sur votre téléphone .

Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.

2. Affichage des effets

Compréhension de l'image

Comparaison multi-images

Extraction de texte OCR

Compréhension de la vidéo

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp