HyperAI

NVIDIA et OpenAI ont collaboré pour optimiser les nouveaux modèles open-source gpt-oss-20b et gpt-oss-120b, conçus pour fonctionner efficacement sur les GPU NVIDIA, offrant ainsi une inférence rapide et intelligente, du cloud à l’ordinateur personnel. Ces modèles de raisonnement avancé permettent des applications d’IA agente telles que la recherche web, l’analyse documentaire approfondie ou l’aide au codage. Développés sur les GPU H100 NVIDIA, ils bénéficient d’une architecture à mélanges d’experts, de capacités de raisonnement en chaîne (chain-of-thought) et d’une longueur de contexte pouvant atteindre 131 072 tokens, parmi les plus grandes disponibles pour une inférence locale. Grâce à la précision MXFP4, ils offrent une qualité élevée tout en réduisant la consommation de ressources. Ces modèles sont désormais accessibles à des millions d’utilisateurs via des outils comme Ollama, llama.cpp, Microsoft AI Foundry Local ou encore les frameworks Hugging Face et vLLM, optimisés pour les GPU NVIDIA RTX. Sur une GeForce RTX 5090, les performances atteignent jusqu’à 256 tokens par seconde. Ollama, en particulier, facilite leur utilisation sur les PC et stations de travail équipés de RTX, avec une interface intuitive, un support natif des fichiers PDF, une fonction multimodale pour les images et une personnalisation facile de la longueur du contexte. Les développeurs peuvent aussi intégrer les modèles via l’interface en ligne de commande ou le SDK. NVIDIA continue d’optimiser les performances sur ses GPU grâce à des contributions au projet llama.cpp, notamment l’implémentation de CUDA Graphs et d’algorithmes réduisant la charge du CPU. Microsoft AI Foundry Local, en version bêta publique, permet aussi d’exécuter ces modèles localement sur Windows, via la ligne de commande ou des API, avec une optimisation CUDA et une intégration future à TensorRT pour RTX. La sortie de ces modèles marque une nouvelle étape dans l’innovation ouverte, soutenue par la plateforme CUDA, largement répandue avec plus de 450 millions de téléchargements. NVIDIA, avec son architecture Blackwell, offre une inférence ultra-efficace, notamment grâce à la précision NVFP4 à 4 bits, permettant de traiter des modèles de trillion de paramètres en temps réel, avec une réduction significative de la consommation énergétique et mémoire. Cela permet aux entreprises de réaliser des gains considérables en performance et en coût. Cette collaboration, qui remonte à 2016 avec la remise du premier supercalculateur DGX-1 par Jensen Huang à OpenAI, illustre l’engagement de NVIDIA dans l’innovation ouverte et l’accès mondial à l’IA. Aujourd’hui, les 6,5 millions de développeurs NVIDIA dans 250 pays peuvent exploiter ces modèles grâce à un écosystème logiciel riche, incluant 900 outils de développement et des milliers de modèles. Des ressources comme le blog RTX AI Garage ou les réseaux sociaux de NVIDIA permettent de suivre les innovations communautaires, notamment dans la création d’agents IA, de workflows créatifs ou d’applications productives. En résumé, cette initiative renforce la leadership technologique américaine en IA, en combinant l’excellence du modèle open-source d’OpenAI avec l’infrastructure de calcul NVIDIA, rendant l’IA avancée accessible à tous, partout, et à tout échelle.

OpenAI et NVIDIA lancent des modèles ouverts optimisés pour GPU RTX

Related Links