HyperAI

Déploiement vLLM+Open WebUI MiniCPM4-8B

1. Introduction au tutoriel

Étoiles GitHub

MiniCPM 4.0 est un modèle de langage performant, de grande taille (LLM), lancé par OpenBMB le 6 juin 2025. Grâce à des technologies telles que l'architecture parcimonieuse, la compression de quantification et un cadre de raisonnement efficace, il permet un raisonnement haute performance à faible coût de calcul, particulièrement adapté au traitement de textes longs, aux scénarios sensibles à la confidentialité et au déploiement de dispositifs informatiques de pointe. MiniCPM4-8B affiche une vitesse de traitement nettement supérieure à Qwen3-8B pour le traitement de longues séquences. Les résultats de l'article sont les suivants :MiniCPM4 : des LLM ultra-efficaces sur les terminaux".

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes avant d'actualiser la page.

Comment utiliser

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1  Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@article{minicpm4,
  title={MiniCPM4: Ultra-Efficient LLMs on End Devices},
  author={MiniCPM Team},
  year={2025}
}

@inproceedings{huminicpm,
  title={MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies},
  author={Hu, Shengding and Tu, Yuge and Han, Xu and Cui, Ganqu and He, Chaoqun and Zhao, Weilin and Long, Xiang and Zheng, Zhi and Fang, Yewei and Huang, Yuxiang and others},
  booktitle={First Conference on Language Modeling},
  year={2024}
}