HyperAIHyperAI

Command Palette

Search for a command to run...

GPT-5.3-Codex : le premier agent intelligent capable de se développer lui-même et de mener des projets complexes de A à Z

OpenAI présente GPT-5.3-Codex, le modèle agent de codage le plus avancé à ce jour, intégrant des progrès significatifs à la fois dans les performances de codage, la capacité de raisonnement et les connaissances professionnelles. Ce modèle, 25 % plus rapide que ses prédécesseurs, excelle dans les tâches complexes et longues, incluant la recherche, l’utilisation d’outils et l’exécution autonome. Contrairement aux versions précédentes, GPT-5.3-Codex a joué un rôle clé dans sa propre création : des versions préliminaires ont été utilisées par l’équipe Codex pour déboguer leur entraînement, gérer leur déploiement et analyser les résultats d’évaluation, révélant une autonomie et une efficacité remarquables. Sur des benchmarks exigeants, GPT-5.3-Codex bat tous les records : il atteint 56,8 % sur SWE-Bench Pro — une évaluation rigoureuse couvrant quatre langages et plus résistante à la contamination que les précédentes versions — et 77,3 % sur Terminal-Bench 2.0, démontrant des compétences supérieures en manipulation de terminal. Il excelle également sur OSWorld-Verified (64,7 %) et GDPval (70,9 %), illustrant sa capacité à mener des tâches professionnelles complexes, comme la création de présentations, de feuilles de calcul ou de documents techniques. Enfin, il réalise 77,6 % sur les défis de cybersécurité (CTF), devenant le premier modèle classé « haute capacité » en cybersécurité par le cadre de préparation d’OpenAI, et le premier directement entraîné pour détecter les vulnérabilités logicielles. L’un des points forts de GPT-5.3-Codex réside dans sa capacité à comprendre les intentions utilisateur, même avec des demandes vagues. Par exemple, lors de la création de pages web, il propose automatiquement des tarifs mensuels réduits pour les abonnements annuels et des carrousels de témoignages dynamiques, produisant des résultats plus aboutis dès le départ. Pour tester ses capacités agentes, OpenAI a demandé à GPT-5.3-Codex de développer deux jeux vidéo en autonomie sur plusieurs jours, avec des itérations basées sur des retours comme « corrigez le bug » ou « améliorez le jeu ». Les résultats, visibles dans des bandes-annonces et jouables, montrent une maîtrise avancée du développement web et de l’itération autonome. Le modèle s’inscrit dans une évolution plus large : il ne se limite plus au codage, mais devient un collaborateur généraliste capable de gérer l’intégralité du cycle de développement logiciel — débogage, déploiement, rédaction de PRD, analyse de données, recherche utilisateur — ainsi que des tâches transversales comme la création de diapositives ou l’analyse de tableurs. Grâce à une interaction en temps réel, l’utilisateur peut suivre, questionner et guider l’agent sans perte de contexte, ce qui améliore la collaboration et la transparence. Des équipes internes ont déjà exploité GPT-5.3-Codex pour accélérer leur travail : détection de bugs, optimisation de l’infrastructure, analyse de données complexes, et génération de rapports automatisés. Un chercheur a même utilisé le modèle pour développer des classificateurs regex afin d’analyser les interactions utilisateur à grande échelle, produisant des insights en moins de trois minutes. En matière de sécurité, OpenAI adopte une approche préventive. GPT-5.3-Codex est protégé par une pile de sécurité renforcée, incluant un entraînement de sécurité, un suivi automatisé, un accès contrôlé et des pipelines d’application de mesures. Le programme Trusted Access for Cyber, ainsi que l’expansion du bêta privé d’Aardvark, un agent de recherche en cybersécurité, visent à soutenir les chercheurs éthiques. Un nouveau programme de subventions de 10 millions de crédits API est lancé pour aider les projets open source et les infrastructures critiques. Disponible sur les plans payants ChatGPT (app, CLI, extension IDE, web), GPT-5.3-Codex repose sur les systèmes NVIDIA GB200 NVL72. Ce modèle marque une avancée fondamentale : il n’est plus seulement un assistant de codage, mais un agent généraliste capable d’opérer sur un ordinateur comme un collaborateur humain, élargissant ainsi les frontières du travail technologique.

Liens associés