HyperAIHyperAI
il y a 17 jours

VulScribeR : Exploration de l'augmentation de vulnérabilités basée sur RAG avec des LLM

Seyed Shayan Daneshvar, Yu Nong, Xu Yang, Shaowei Wang, Haipeng Cai
VulScribeR : Exploration de l'augmentation de vulnérabilités basée sur RAG avec des LLM
Résumé

La détection des vulnérabilités est essentielle pour la sécurité logicielle, mais les détecteurs de vulnérabilités basés sur l’apprentissage profond (DLVD) font face à une pénurie de données, ce qui limite leur efficacité. L’augmentation de données pourrait potentiellement atténuer cette pénurie, mais l’augmentation de code vulnérable s’avère difficile et nécessite une solution générative capable de préserver la vulnérabilité. Les travaux antérieurs se sont limités à la génération d’échantillons contenant une seule instruction ou des types spécifiques de vulnérabilités. Récemment, les grands modèles linguistiques (LLM) ont été utilisés avec des résultats prometteurs pour diverses tâches de génération et de compréhension de code, en particulier lorsqu’ils sont combinés avec une génération augmentée par récupération (RAG). Par conséquent, nous proposons VulScribeR, une nouvelle solution basée sur les LLM qui exploite des modèles de prompt soigneusement conçus afin d’augmenter les jeux de données vulnérables. Plus précisément, nous explorons trois stratégies d’augmentation, appliquées à la fois aux vulnérabilités à une seule instruction et aux vulnérabilités multi-instructions, à l’aide de LLM : la Mutation, l’Injection et l’Extension. Notre évaluation étendue sur quatre jeux de données de vulnérabilités et trois modèles DLVD montre que notre approche surpasses deux méthodes de pointe, Vulgen et VGX, ainsi que l’over-sampling aléatoire (ROS), avec une amélioration moyenne de 27,48 %, 27,93 % et 15,41 % en score F1, en utilisant en moyenne 5 000 échantillons vulnérables générés, et de 53,84 %, 54,10 %, 69,90 % et 40,93 % avec 15 000 échantillons générés. Notre méthode démontre sa faisabilité pour une augmentation à grande échelle, en générant 1 000 échantillons à un coût aussi faible que 1,88 USD.

VulScribeR : Exploration de l'augmentation de vulnérabilités basée sur RAG avec des LLM | Articles de recherche récents | HyperAI