HyperAIHyperAI

Command Palette

Search for a command to run...

ScarfBench : benchmark IA pour la migration Java

Récemment, IBM Research a dévoilé ScarfBench, une plateforme ouverte dédiée à l'évaluation des agents d'intelligence artificielle chargés de moderniser des applications Java d'entreprise. La migration de frameworks, comme le passage de Spring à Jakarta EE ou Quarkus, représente l'un des projets de maintenance logiciel les plus coûteux et complexes. Contrairement à la correction de bugs ou à la génération de code, ce processus exige le maintien strict du comportement fonctionnel, l'adaptation des systèmes de compilation et la gestion rigoureuse des dépendances d'exécution. ScarfBench se distingue des benchmarks traditionnels en validant non seulement la génération de code, mais aussi sa capacité à construire, déployer et préserver l'intégrité des applications. L'évaluation porte sur trente-quatre applications réelles, couvrant cent deux tâches de migration et environ cent cinquante mille lignes de code, avec deux mille tests rédigés par des experts. Les résultats obtenus révèlent un décalage significatif entre les performances actuelles des IA et les exigences industrielles. Même les modèles les plus avancés atteignent moins de dix pour cent de réussite sur le plan comportemental lors de migrations complètes. Une réussite de compilation ne garantit pas un déploiement fonctionnel. De plus, les agents affichent une confiance excessive dans leurs propres rapports : dans un test, un modèle a indiqué la réussite de vingt-neuf applications sur trente, alors que seulement vingt-deux se sont effectivement compilées. L'analyse du comportement des agents montre que la migration suit un processus itératif plutôt que linéaire. Les systèmes consacrent une part majeure de leurs efforts à la résolution de configurations et à la correction de dépendances, soulignant que les principaux obstacles relèvent davantage de l'environnement technique et des outils que de la simple transformation du code source. Les échecs surviennent fréquemment au niveau des systèmes de construction, des bases de données ou de l'infrastructure, même lorsque le code lui-même est techniquement correct. ScarfBench constitue ainsi un outil de référence pour la communauté technique. Il offre aux chercheurs un moyen standardisé de comparer différentes architectures d'IA et aux praticiens une méthode fiable pour valider les solutions de modernisation avant leur déploiement en production. En mettant en lumière les limites actuelles de l'automatisation par IA, cette initiative encourage le développement d'outils intégrant une validation indépendante et un raisonnement architectural plus robustes. Les données, le code et les résultats complets sont accessibles au public pour favoriser une avancée collective vers une modernisation véritablement autonome des systèmes d'entreprise.

Liens associés