il y a 17 jours

Affinage des grands modèles linguistiques pour la détection de vulnérabilités

Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Evgeny Maslov, Anton Cheshkov, Pavel Zadorozhny

Résumé

Cet article présente les résultats de la mise au point (fine-tuning) de grands modèles linguistiques (LLM) pour la détection de vulnérabilités dans le code source. Nous utilisons WizardCoder, une amélioration récente du modèle LLM de pointe StarCoder, et l’adaptons à la détection de vulnérabilités grâce à une mise au point supplémentaire. Afin d’accélérer l’entraînement, nous modifions la procédure d’entraînement de WizardCoder, tout en explorant des régimes d’entraînement optimaux. Face à un jeu de données déséquilibré, comportant nettement plus d’exemples négatifs que positifs, nous étudions également différentes techniques visant à améliorer les performances de classification. Le modèle WizardCoder mis au point obtient une amélioration en termes de score ROC AUC et de F1 sur des jeux de données équilibrés et déséquilibrés par rapport au modèle CodeBERT-like, démontrant ainsi l’efficacité de l’adaptation des grands modèles pré-entraînés pour la détection de vulnérabilités dans le code source. Les contributions principales de cette étude incluent la mise au point du modèle LLM de code de pointe WizardCoder, l’accélération de son entraînement sans perte de performance, l’optimisation de sa procédure et de ses régimes d’entraînement, la gestion de l’imprégnation de classes, ainsi que l’amélioration des performances sur des jeux de données particulièrement difficiles pour la détection de vulnérabilités. Ces résultats illustrent le potentiel du transfert d’apprentissage par mise au point de grands modèles linguistiques pré-entraînés pour des tâches spécialisées d’analyse de code source.