Kimi K2.5 : un nouveau modèle multimodal open source puissant, disponible gratuitement sur GPU NVIDIA
Kimi K2.5 est le dernier modèle multimodal de vision et langage (VLM) développé par la série Kimi. Il s'agit d'un modèle généraliste conçu pour exceller dans des tâches à fort potentiel actuel, telles que les workflows d'IA agente, les conversations, le raisonnement, la programmation, les mathématiques et bien d'autres domaines. Ce modèle a été entraîné à l’aide du cadre open source Megatron-LM, qui offre une accélération informatique optimisée pour la scalabilité et l’efficacité GPU grâce à plusieurs types de parallélisme (tensoriel, de données, séquentiel). Son architecture repose sur les meilleures pratiques des grands modèles ouverts modernes, en combinant performance et efficacité. Kimi K2.5 est composé de 384 experts, dont un seul est partagé, avec une couche dense unique. Cette structure permet des experts plus petits et un routage spécialisé selon les modalités. Le modèle active seulement 3,2 % de ses paramètres par jeton, ce qui en fait un modèle très efficace en termes de ressources. Il dispose d’un contexte d’entrée pouvant atteindre 262 000 tokens, ce qui le rend particulièrement adapté aux tâches nécessitant une grande capacité de mémoire contextuelle. | Spécification | Valeur | |-------------------------------|--------------------------------| | Nombre total de paramètres | 1 trillion | | Paramètres actifs | 32,86 milliards | | Taux d’activation par jeton | 3,2 % | | Longueur maximale du contexte | 262 000 tokens | | Nombre d’experts | 384 | | Experts partagés | 1 | | Experts par jeton | 8 | | Nombre de couches | 61 (1 dense, 60 MoE) | | Nombre de têtes d’attention | 64 | | Taille du vocabulaire | ~164 000 | Pour la perception visuelle, le modèle intègre un vocabulaire d’entraînement étendu de 164 000 tokens, incluant des tokens spécifiques à l’image. Kimi a développé une tour visuelle dédiée appelée MoonViT3d, qui transforme les images et les images vidéo en embeddings, permettant une compréhension fine des contenus multimodaux. Grâce aux endpoints GPU accélérés NVIDIA, il est désormais possible de commencer à utiliser Kimi K2.5 gratuitement pour des prototypes via build.nvidia.com, dans le cadre du programme NVIDIA Developer. Les utilisateurs peuvent même intégrer leurs propres données directement dans l’interface navigateur. Les microservices NVIDIA NIM, destinés à l’inférence en production, seront bientôt disponibles. Pour accéder au modèle via API, une inscription gratuite au programme NVIDIA Developer suffit. Voici un exemple de requête en Python : ```python import requests invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" headers = { "Authorization": "Bearer $NVIDIA_API_KEY", "Accept": "application/json", } payload = { "messages": [{"role": "user", "content": "Votre question ici"}], "model": "moonshotai/kimi-k2.5", "chat_template_kwargs": {"thinking": True}, "max_tokens": 16384, "temperature": 1, "top_p": 1, "stream": True, } session = requests.Session() response = session.post(invoke_url, headers=headers, json=payload) response.raise_for_status() print(response.json()) ``` Pour utiliser des outils (tool calling), il suffit de définir un tableau d’outils compatibles OpenAI dans le paramètre tools. Pour le déploiement, la solution vLLM est recommandée. Des instructions détaillées sont disponibles dans la recette vLLM dédiée à Kimi K2.5. Enfin, pour une personnalisation avancée, Kimi K2.5 peut être fine-tuné grâce au cadre open source NVIDIA NeMo, notamment via la bibliothèque NeMo AutoModel. Cette solution permet un entraînement à haut débit directement sur les checkpoints Hugging Face, sans conversion, et s’adapte parfaitement aux besoins d’entreprise, notamment pour les tâches multimodales spécifiques, les workflows agents ou le raisonnement avancé. Pour commencer, rendez-vous sur la page Hugging Face de Kimi K2.5 ou sur la plateforme API Kimi, et testez-le directement dans l’outil de démonstration build.nvidia.com. Que ce soit pour des déploiements en centre de données sur NVIDIA Blackwell ou via les microservices NVIDIA NIM entièrement gérés, NVIDIA propose une solution complète pour intégrer Kimi K2.5 dans vos projets.
