Command Palette
Search for a command to run...
A.S.E : Une référence au niveau du dépôt pour évaluer la sécurité dans le code généré par l'IA

Résumé
L’adoption croissante des grands modèles linguistiques (LLM) dans l’ingénierie logicielle rend nécessaire une évaluation rigoureuse de la sécurité du code qu’ils génèrent. Toutefois, les benchmarks existants s’avèrent insuffisants, car ils se concentrent sur des extraits de code isolés, utilisent des méthodes d’évaluation instables, peu reproductibles, et ne parviennent pas à relier la qualité du contexte d’entrée à la sécurité de la sortie. Pour combler ces lacunes, nous introduisons A.S.E (AI Code Generation Security Evaluation), un benchmark dédié à l’évaluation de la sécurité de la génération de code au niveau du dépôt. A.S.E construit ses tâches à partir de dépôts réels contenant des CVE documentées, tout en préservant le contexte complet du dépôt, y compris les systèmes de construction et les dépendances entre fichiers. Son cadre d’évaluation reproductible, conteneurisé, repose sur des règles définies par des experts afin d’assurer des évaluations stables, vérifiables, portant sur la sécurité, la qualité de compilation et la stabilité de la génération. Notre évaluation des principaux LLM sur A.S.E révèle trois constats majeurs : (1) Claude-3.7-Sonnet obtient les meilleurs résultats globaux ; (2) l’écart de sécurité entre modèles propriétaires et open source est réduit ; Qwen3-235B-A22B-Instruct atteint le meilleur score en matière de sécurité ; (3) les stratégies de décodage concises, « à pensée rapide », surpassent de façon constante les approches complexes, « à pensée lente », pour la génération de correctifs sécurisés.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.