1. Introduction au tutoriel

MiniCPM 4.0, lancé par OpenBMB le 6 juin 2025, est un modèle de langage étendu (LLM) haute performance pour le traitement en périphérie. Grâce à une architecture creuse, une compression par quantification et un cadre d'inférence efficace, il offre des performances d'inférence élevées à faible coût de calcul, ce qui le rend particulièrement adapté au traitement de textes longs, aux scénarios sensibles à la confidentialité et au déploiement sur des dispositifs de calcul en périphérie. MiniCPM4-8B présente une vitesse de traitement nettement supérieure à celle de Qwen3-8B pour les séquences longues. Des articles de recherche associés sont disponibles. MiniCPM4 : des LLM ultra-efficaces sur les terminaux .

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes avant d'actualiser la page.

Comment utiliser

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1 Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@article{minicpm4, title={MiniCPM4: Ultra-Efficient LLMs on End Devices}, author={MiniCPM Team}, year={2025} } @inproceedings{huminicpm, title={MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies}, author={Hu, Shengding and Tu, Yuge and Han, Xu and Cui, Ganqu and He, Chaoqun and Zhao, Weilin and Long, Xiang and Zheng, Zhi and Fang, Yewei and Huang, Yuxiang and others}, booktitle={First Conference on Language Modeling}, year={2024} }

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

1.86 MB

Balises

vLLM

Licence

Apache 2.0

GitHub

OpenBMB/MiniCPM/

URL du document

2506.07900

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes avant d'actualiser la page.

Comment utiliser

4. Discussion

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1 Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@article{minicpm4,
  title={MiniCPM4: Ultra-Efficient LLMs on End Devices},
  author={MiniCPM Team},
  year={2025}
}

@inproceedings{huminicpm,
  title={MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies},
  author={Hu, Shengding and Tu, Yuge and Han, Xu and Cui, Ganqu and He, Chaoqun and Zhao, Weilin and Long, Xiang and Zheng, Zhi and Fang, Yewei and Huang, Yuxiang and others},
  booktitle={First Conference on Language Modeling},
  year={2024}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Déploiement De LFM2.5-1.2B-Thinking À l'aide De vLLM Et d'une Interface Web Ouverte

il y a 8 jours

Déploiement De GLM-4.7-Flash À l'aide De vLLM+Open WebUI

il y a 8 jours

vLLM+Open WebUI Déploie Nemotron-3 Nano

il y a 19 jours

Déploiement De VibeThinker-1.5B Avec vLLM+OpenWebUI

il y a 3 mois

PaddleOCR-VL : Analyse De Documents Multimodaux

il y a 3 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

1.86 MB

Balises

vLLM

Licence

Apache 2.0

GitHub

OpenBMB/MiniCPM/

URL du document

2506.07900

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes avant d'actualiser la page.

Comment utiliser

4. Discussion

Informations sur la citation

Merci à l'utilisateur Github xxxjjjyyy1 Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@article{minicpm4,
  title={MiniCPM4: Ultra-Efficient LLMs on End Devices},
  author={MiniCPM Team},
  year={2025}
}

@inproceedings{huminicpm,
  title={MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies},
  author={Hu, Shengding and Tu, Yuge and Han, Xu and Cui, Ganqu and He, Chaoqun and Zhao, Weilin and Long, Xiang and Zheng, Zhi and Fang, Yewei and Huang, Yuxiang and others},
  booktitle={First Conference on Language Modeling},
  year={2024}
}

Associé Notebooks

Open-AutoGLM : Assistant Intelligent Pour Appareils Mobiles

il y a 2 mois

Déploiement De QwenLong-L1.5 Avec vLLM Et Interface Web Ouverte

il y a un mois

Déploiement d'IQuest-Coder-V1 À l'aide De vLLM Et d'Open WebUI

il y a un mois

Fonction De Déploiement vLLM+Open WebUIGemma-270m-it

il y a 21 jours

Déploiement De LFM2.5-1.2B-Thinking À l'aide De vLLM Et d'une Interface Web Ouverte

il y a 8 jours

Déploiement De GLM-4.7-Flash À l'aide De vLLM+Open WebUI

il y a 8 jours

vLLM+Open WebUI Déploie Nemotron-3 Nano

il y a 19 jours

Déploiement De VibeThinker-1.5B Avec vLLM+OpenWebUI

il y a 3 mois

PaddleOCR-VL : Analyse De Documents Multimodaux

il y a 3 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Déploiement vLLM+Open WebUI MiniCPM4-8B

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Déploiement vLLM+Open WebUI MiniCPM4-8B

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

Open-AutoGLM : Assistant Intelligent Pour Appareils Mobiles

Déploiement De QwenLong-L1.5 Avec vLLM Et Interface Web Ouverte

Déploiement d'IQuest-Coder-V1 À l'aide De vLLM Et d'Open WebUI

Fonction De Déploiement vLLM+Open WebUIGemma-270m-it

Déploiement De LFM2.5-1.2B-Thinking À l'aide De vLLM Et d'une Interface Web Ouverte

Déploiement De GLM-4.7-Flash À l'aide De vLLM+Open WebUI

vLLM+Open WebUI Déploie Nemotron-3 Nano

Déploiement De VibeThinker-1.5B Avec vLLM+OpenWebUI

PaddleOCR-VL : Analyse De Documents Multimodaux

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Déploiement vLLM+Open WebUI MiniCPM4-8B

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

Open-AutoGLM : Assistant Intelligent Pour Appareils Mobiles

Déploiement De QwenLong-L1.5 Avec vLLM Et Interface Web Ouverte

Déploiement d'IQuest-Coder-V1 À l'aide De vLLM Et d'Open WebUI

Fonction De Déploiement vLLM+Open WebUIGemma-270m-it

Déploiement De LFM2.5-1.2B-Thinking À l'aide De vLLM Et d'une Interface Web Ouverte

Déploiement De GLM-4.7-Flash À l'aide De vLLM+Open WebUI

vLLM+Open WebUI Déploie Nemotron-3 Nano

Déploiement De VibeThinker-1.5B Avec vLLM+OpenWebUI

PaddleOCR-VL : Analyse De Documents Multimodaux

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

Open-AutoGLM : Assistant Intelligent Pour Appareils Mobiles

Déploiement De QwenLong-L1.5 Avec vLLM Et Interface Web Ouverte

Déploiement d'IQuest-Coder-V1 À l'aide De vLLM Et d'Open WebUI

Fonction De Déploiement vLLM+Open WebUIGemma-270m-it

Déploiement De LFM2.5-1.2B-Thinking À l'aide De vLLM Et d'une Interface Web Ouverte

Déploiement De GLM-4.7-Flash À l'aide De vLLM+Open WebUI

vLLM+Open WebUI Déploie Nemotron-3 Nano

Déploiement De VibeThinker-1.5B Avec vLLM+OpenWebUI

PaddleOCR-VL : Analyse De Documents Multimodaux

Associé Notebooks

Open-AutoGLM : Assistant Intelligent Pour Appareils Mobiles

Déploiement De QwenLong-L1.5 Avec vLLM Et Interface Web Ouverte

Déploiement d'IQuest-Coder-V1 À l'aide De vLLM Et d'Open WebUI

Fonction De Déploiement vLLM+Open WebUIGemma-270m-it

Déploiement De LFM2.5-1.2B-Thinking À l'aide De vLLM Et d'une Interface Web Ouverte

Déploiement De GLM-4.7-Flash À l'aide De vLLM+Open WebUI

vLLM+Open WebUI Déploie Nemotron-3 Nano

Déploiement De VibeThinker-1.5B Avec vLLM+OpenWebUI

PaddleOCR-VL : Analyse De Documents Multimodaux