Regards sur l’évaluation comparative des modèles linguistiques de pointe dans la génération de code pour applications web

Cet article présente les résultats d’une évaluation de 16 modèles linguistiques massifs (LLM) de pointe sur le benchmark WebApp1K, un ensemble de tests conçu pour évaluer la capacité des LLM à générer du code pour applications web. Les résultats révèlent que, bien que tous les modèles disposent d’une connaissance fondamentale similaire, leurs performances diffèrent principalement selon la fréquence des erreurs qu’ils commettent. En analysant le nombre de lignes de code (LOC) et la répartition des échecs, nous constatons que la rédaction de code correct est plus complexe que la génération de code incorrecte. De plus, l’ingénierie de prompts se révèle peu efficace pour réduire les erreurs au-delà de cas spécifiques. Ces observations suggèrent que les progrès futurs des modèles de codage devraient se concentrer davantage sur la fiabilité du modèle et la minimisation des erreurs.