HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA booste les modèles IA sur PC avec des outils open-source et des performances jusqu’à 3x plus rapides

L’essor de l’intelligence artificielle sur PC est en plein boom, porté par la montée en qualité des petits modèles linguistiques (SLM) et des modèles de diffusion comme FLUX.2, GPT-OSS-20B ou Nemotron 3 Nano. Parallèlement, les cadres logiciels dédiés aux PC IA — tels que ComfyUI, llama.cpp, Ollama ou Unsloth — connaissent une croissance fulgurante, leur popularité ayant doublé en un an, tandis que le nombre de développeurs utilisant des modèles sur PC a augmenté d’un facteur dix. Ces outils permettent désormais de construire des stacks logicielles de nouvelle génération sur GPU NVIDIA, du centre de données au PC IA RTX. À l’occasion du CES 2026, NVIDIA annonce plusieurs mises à jour clés pour renforcer l’écosystème des développeurs PC IA. Sur le plan de l’inference accélérée, NVIDIA collabore avec la communauté open source pour améliorer les performances sur toute la chaîne logicielle. ComfyUI bénéficie d’optimisations significatives sur GPU NVIDIA grâce à PyTorch-CUDA, avec prise en charge des formats quantifiés NVFP4 et FP8. Ces formats permettent des économies mémoire de 60 % et 40 % respectivement, et accélèrent les performances de 3x pour NVFP4 et 2x pour FP8. Le code d’optimisation est disponible dans le dépôt ComfyUI kitchen, et des checkpoints NVFP4/FP8 sont désormais accessibles sur Hugging Face, incluant des modèles récents comme LTX-2, FLUX.2, Qwen-Image ou Z-Image. Pour les SLM, les performances de génération de tokens sur les modèles à mélanges d’experts (MoE) ont progressé de 35 % sous llama.cpp et de 30 % sous Ollama sur les RTX. Ces gains s’appuient sur des optimisations comme le transfert de l’échantillonnage (TopK, TopP, température, etc.) sur GPU, la concurrence des flux CUDA pour les projections QKV, des optimisations MMVQ pour mieux utiliser le GPU, et une réduction du temps de chargement des modèles jusqu’à 65 % sur DGX Spark. Les GPU Blackwell bénéficient d’un support natif MXFP4, offrant jusqu’à 25 % de vitesse supplémentaire pour le traitement des prompts. NVIDIA et Lightricks lancent également le modèle LTX-2, un modèle fondamental audio-visuel avancé, ouvert et prêt à production, capable de générer jusqu’à 20 secondes de contenu synchronisé en 4K à 50 fps. Il supporte un contrôle multimodal et est disponible en BF16 et NVFP8, avec une réduction de 30 % de la mémoire grâce à la quantification. Ce modèle s’inscrit dans une tendance croissante de publication de modèles open source de pointe. Pour les agents IA locales, NVIDIA améliore les outils de construction d’agents fiables. Le modèle Nemotron 3 Nano, un MoE de 32 milliards de paramètres avec 3,6 milliards d’actifs et une fenêtre contextuelle de 1 million, est optimisé pour les RTX et DGX Spark via Ollama et llama.cpp, et peut être fine-tuné avec Unsloth. Il excelle en codage, raisonnement long et tâches STEM. En complément, la collaboration avec Docling — un outil d’ingestion et d’analyse de documents développé par IBM et contribué à la Linux Foundation — accélère les pipelines RAG jusqu’à 4x par rapport aux CPU, via des pipelines OCR ou VLM sur RTX. Enfin, les SDKs audio-visuels de NVIDIA sont mis à jour : la fonction de relighting vidéo est désormais plus naturelle, performante (3x plus rapide) et exige un GPU minimum de RTX 3060, avec une taille de modèle réduite jusqu’à 6x. Ces outils sont déjà intégrés à l’application NVIDIA Broadcast. Ces avancées, fruit d’une collaboration étroite avec la communauté open source, renforcent l’attractivité des PC IA RTX et DGX Spark pour le développement d’applications IA locales, rapides, sécurisées et évolutives.

Liens associés

NVIDIA booste les modèles IA sur PC avec des outils open-source et des performances jusqu’à 3x plus rapides | Articles tendance | HyperAI