Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

il y a 3 heures

Ces dernières années, l'industrie de l'IA a été presque entièrement dominée par le concept de loi d'échelle. Plus le nombre de paramètres et le volume de données d'entraînement sont importants, plus le modèle semble se rapprocher de l'« intelligence générale ». Des centaines de milliards aux billions de paramètres, les grands modèles ont constamment repoussé les limites de notre conception du raisonnement et de la connaissance du monde, et ont également fait de l'« accumulation de puissance de calcul et de la mise à l'échelle » la voie de développement privilégiée de l'industrie.

Mais à mesure que l'IA commence réellement à être appliquée dans l'industrie, un véritable problème émerge progressivement :Tous les scénarios ne nécessitent pas le déploiement de supermodèles dans des centres de données cloud.Les coûts d'inférence élevés, la latence réseau incontrôlable et les risques croissants liés à la confidentialité des données constituent des goulots d'étranglement dans l'approche par modélisation « vaste et complète ». Le « triangle impossible » entre performance, rapidité et coût est devenu un problème que la démocratisation de l'IA doit résoudre.

Ainsi, une tendance apparemment contre-intuitive a commencé à émerger : les modèles avec des paramètres plus petits ont démontré une efficacité et une rentabilité supérieures dans un nombre croissant de scénarios réels, notamment dans les dispositifs périphériques et les environnements industriels à haute concurrence.Les modèles légers prennent en charge des tâches fondamentales telles que la reconnaissance optique de caractères (OCR), la réponse aux questions par image et la reconnaissance d'intention.Elles peuvent fonctionner hors ligne sur des appareils mobiles à des vitesses de l'ordre de la milliseconde, et gèrent également le routage et la réduction des coûts au sein du système RAG, devenant ainsi une infrastructure cruciale pour la véritable mise en œuvre des applications d'IA.

Récemment, Facewall Intelligence, l'Université Tsinghua et OpenBMB ont conjointement publié en open source le modèle multimodal de nouvelle génération MiniCPM-V 4.6. Ce modèle ne comporte qu'environ 1,3 milliard de paramètres, mais il prend en charge la compréhension d'images, la compréhension vidéo, la reconnaissance optique de caractères (OCR) et les capacités de dialogue multimodal à plusieurs tours, et a surpassé d'autres modèles du même niveau dans de multiples évaluations.

Il convient de noter que la carte modèle officielle fournit une solution d'inférence AutoProcessor et AutoModelForImageTextToText basée sur Transformers, qui convient à la vérification rapide et au prototypage d'applications dans un environnement GPU unique.

Pour permettre aux développeurs du monde entier de prendre rapidement en main ce modèle léger, HyperAI a lancé « MiniCPM-V-4.6 : un modèle de langage visuel multimodal et performant pour les applications Edge ». La configuration de l’environnement est terminée et le déploiement en ligne du modèle est aisé.

Exécutez en ligne :https://go.hyper.ai/GVDmw

Consultez les articles de recherche connexes :

https://hyper.ai/papers/2605.08985

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

1. Après avoir accédé à la page d'accueil d'hyper.ai, sélectionnez la page « Tutoriels » ou cliquez sur « Voir plus de tutoriels », sélectionnez « MiniCPM-V-4.6 : Modèle de langage visuel multimodal efficace pour appareils », puis cliquez sur « Exécuter ce tutoriel ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

HyperAI propose un bonus d'inscription pour les nouveaux utilisateurs : pour seulement $1, vous pouvez obtenir 20 heures de puissance de calcul RTX 5090 (au lieu de $7), et les ressources sont valables indéfiniment.

4. Attendez que les ressources soient allouées. Une fois que le statut passe à « En cours d'exécution », cliquez sur « Ouvrir l'espace de travail » pour accéder à l'espace de travail Jupyter.

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

Associé Actualités

Lorsque l'informatique Multimodale Commence À Prendre Son Essor : MiniCPM-o-4.5, Avec Seulement 9 Octets, Couvre La Compréhension d'images En Temps Réel Et La Génération De Texte ; vLLM Omni Prend Simultanément En Charge Le Déploiement À Haut Débit Et l'architecture Orientée Services Pour Les Modèles Textuels Et multimodaux.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Déployez OpenClaw En Utilisant Le CPU Gratuit Et Intégrez-le Facilement À Des Logiciels Sociaux Tels Que Lark/Discord

Tutoriel En Ligne | Université Des Sciences Et Technologies De Huazhong Et Xiaohongshu Hi Lab : dots.mocr, Un Modèle OCR open-source De Pointe Qui Restaure Parfaitement La Structure Des Documents Et Peut Convertir Des Graphiques En SVG.

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | Premier Agent Modèle Open Source De La Série Qwen 3.6 : Capacités De Programmation Considérablement Améliorées, Paramètres D’activation De Seulement 3 Milliards, Surpassant Gemma4-31B

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriels En Ligne | Déploiement Rapide Avec Des Ressources CPU Gratuites, Couvrant Des Modèles open-source Populaires Tels Que Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2, etc.

HyperAI

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

il y a 3 heures

Information

OCR

Intelligence Artificielle

Reconnaissance D'images

Apprentissage Profond

Compréhension Vidéo

Exécutez en ligne :https://go.hyper.ai/GVDmw

Consultez les articles de recherche connexes :

https://hyper.ai/papers/2605.08985

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

Associé Actualités

Lorsque l'informatique Multimodale Commence À Prendre Son Essor : MiniCPM-o-4.5, Avec Seulement 9 Octets, Couvre La Compréhension d'images En Temps Réel Et La Génération De Texte ; vLLM Omni Prend Simultanément En Charge Le Déploiement À Haut Débit Et l'architecture Orientée Services Pour Les Modèles Textuels Et multimodaux.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Déployez OpenClaw En Utilisant Le CPU Gratuit Et Intégrez-le Facilement À Des Logiciels Sociaux Tels Que Lark/Discord

Tutoriel En Ligne | Université Des Sciences Et Technologies De Huazhong Et Xiaohongshu Hi Lab : dots.mocr, Un Modèle OCR open-source De Pointe Qui Restaure Parfaitement La Structure Des Documents Et Peut Convertir Des Graphiques En SVG.

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | Premier Agent Modèle Open Source De La Série Qwen 3.6 : Capacités De Programmation Considérablement Améliorées, Paramètres D’activation De Seulement 3 Milliards, Surpassant Gemma4-31B

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriels En Ligne | Déploiement Rapide Avec Des Ressources CPU Gratuites, Couvrant Des Modèles open-source Populaires Tels Que Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2, etc.

Command Palette

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Essai de démonstration

Command Palette

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Essai de démonstration

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Déployez OpenClaw En Utilisant Le CPU Gratuit Et Intégrez-le Facilement À Des Logiciels Sociaux Tels Que Lark/Discord

Tutoriel En Ligne | Université Des Sciences Et Technologies De Huazhong Et Xiaohongshu Hi Lab : dots.mocr, Un Modèle OCR open-source De Pointe Qui Restaure Parfaitement La Structure Des Documents Et Peut Convertir Des Graphiques En SVG.

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | Premier Agent Modèle Open Source De La Série Qwen 3.6 : Capacités De Programmation Considérablement Améliorées, Paramètres D’activation De Seulement 3 Milliards, Surpassant Gemma4-31B

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriels En Ligne | Déploiement Rapide Avec Des Ressources CPU Gratuites, Couvrant Des Modèles open-source Populaires Tels Que Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2, etc.

Command Palette

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Essai de démonstration

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Déployez OpenClaw En Utilisant Le CPU Gratuit Et Intégrez-le Facilement À Des Logiciels Sociaux Tels Que Lark/Discord

Tutoriel En Ligne | Université Des Sciences Et Technologies De Huazhong Et Xiaohongshu Hi Lab : dots.mocr, Un Modèle OCR open-source De Pointe Qui Restaure Parfaitement La Structure Des Documents Et Peut Convertir Des Graphiques En SVG.

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | Premier Agent Modèle Open Source De La Série Qwen 3.6 : Capacités De Programmation Considérablement Améliorées, Paramètres D’activation De Seulement 3 Milliards, Surpassant Gemma4-31B

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriels En Ligne | Déploiement Rapide Avec Des Ressources CPU Gratuites, Couvrant Des Modèles open-source Populaires Tels Que Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2, etc.

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Déployez OpenClaw En Utilisant Le CPU Gratuit Et Intégrez-le Facilement À Des Logiciels Sociaux Tels Que Lark/Discord

Tutoriel En Ligne | Université Des Sciences Et Technologies De Huazhong Et Xiaohongshu Hi Lab : dots.mocr, Un Modèle OCR open-source De Pointe Qui Restaure Parfaitement La Structure Des Documents Et Peut Convertir Des Graphiques En SVG.

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | Premier Agent Modèle Open Source De La Série Qwen 3.6 : Capacités De Programmation Considérablement Améliorées, Paramètres D’activation De Seulement 3 Milliards, Surpassant Gemma4-31B

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriels En Ligne | Déploiement Rapide Avec Des Ressources CPU Gratuites, Couvrant Des Modèles open-source Populaires Tels Que Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2, etc.

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Déployez OpenClaw En Utilisant Le CPU Gratuit Et Intégrez-le Facilement À Des Logiciels Sociaux Tels Que Lark/Discord

Tutoriel En Ligne | Université Des Sciences Et Technologies De Huazhong Et Xiaohongshu Hi Lab : dots.mocr, Un Modèle OCR open-source De Pointe Qui Restaure Parfaitement La Structure Des Documents Et Peut Convertir Des Graphiques En SVG.

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Tutoriel En Ligne | Premier Agent Modèle Open Source De La Série Qwen 3.6 : Capacités De Programmation Considérablement Améliorées, Paramètres D’activation De Seulement 3 Milliards, Surpassant Gemma4-31B

Tutoriel En Ligne | Basé Sur 5 Millions d'heures De Données Vocales, Qwen3-TTS Réalise Un Clonage Vocal Et Un Réglage Précis En 3 secondes.

Tutoriels En Ligne | Déploiement Rapide Avec Des Ressources CPU Gratuites, Couvrant Des Modèles open-source Populaires Tels Que Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2, etc.