OpenAI lance Codex-Spark, un modèle ultra-rapide pour le développement logiciel en temps réel, alimenté par le processeur Cerebras Wafer-Scale Engine
Aujourd’hui, nous annonçons le lancement en prévisualisation de recherche du modèle GPT-5.3-Codex-Spark d’OpenAI, alimenté par Cerebras. Il s’agit de la première sortie issue de notre collaboration entre Cerebras et OpenAI. Conçu pour le développement logiciel en temps réel, où la réactivité est aussi importante que l’intelligence, Codex-Spark fonctionne à plus de 1 000 tokens par seconde grâce au processeur Wafer-Scale Engine de Cerebras, offrant ainsi une réponse quasi instantanée dans les environnements de codage dynamiques. L’approche dite « agente » du codage a profondément transformé le développement logiciel : pour la première fois, les systèmes peuvent travailler de manière autonome pendant des heures ou des jours sans intervention humaine. Toutefois, cette autonomie peut laisser les développeurs en marge, confrontés à des délais longs et à une perte de contrôle sur le processus. Comme le développement logiciel est intrinsèquement itératif, les développeurs doivent pouvoir apporter leur jugement, leur direction et leur sensibilité au fil du travail. C’est précisément pour répondre à ce besoin que Codex-Spark a été conçu : il s’agit d’un modèle rapide, réactif et contrôlable, permettant au développeur de reprendre les rênes du processus. Codex-Spark est un modèle de petite taille hautement performant, optimisé pour des inférences rapides. Sur des benchmarks d’ingénierie logicielle agente comme SWE-Bench Pro et Terminal-Bench 2.0, il produit des résultats plus efficaces que GPT-5.1-Codex-mini, tout en accomplissant les tâches en une fraction du temps. Il excelle notamment dans les modifications précises du code, la révision de plans, ainsi que dans la réponse à des questions contextuelles sur la base de code. C’est un outil idéal pour visualiser de nouvelles structures, affiner la mise en forme ou tester rapidement des changements d’interface. « Cerebras a été un partenaire d’ingénierie exceptionnel, et nous sommes enthousiastes à l’idée d’intégrer une inférence ultra-rapide comme nouvelle fonctionnalité de notre plateforme. L’intégration du calcul à l’échelle d’un wafer dans nos environnements de production nous ouvre une voie nouvelle pour maintenir Codex réactif dans les cas sensibles à la latence. Nous sommes impatients de recueillir les retours des développeurs pour mieux combiner nos capacités de calcul dans un flux de travail fluide », a déclaré Sachin Katti, responsable du calcul chez OpenAI. Codex-Spark n’est qu’un aperçu de ce que permet la puissance de calcul de Cerebras. Notre objectif global est d’accélérer une large gamme de charges de travail d’intelligence artificielle, tant pour les applications en temps réel que pour les tâches asynchrones. Le Wafer-Scale Engine, conçu sur mesure, dispose de la plus grande mémoire embarquée de tout processeur dédié à l’IA, permettant des inférences à très haute vitesse, atteignant des milliers de tokens par seconde par utilisateur. L’architecture peut s’étendre à des milliers de systèmes, étendant ainsi la capacité de mémoire rapide au domaine des multi-teraoctets, afin de soutenir des modèles de trillions de paramètres, tant pour l’entraînement que pour l’inférence. Nous prévoyons de rendre cette capacité d’inférence extrêmement rapide disponible pour les plus grands modèles de pointe d’ici 2026. Codex-Spark est disponible dès aujourd’hui en prévisualisation de recherche pour les utilisateurs de ChatGPT Pro, via l’application Codex, la ligne de commande et l’extension VS Code. L’accès via API sera progressivement étendu à des partenaires sélectionnés.
