V2W-BERT : Un cadre pour une classification hiérarchique multiclasse efficace des vulnérabilités logicielles

Les faiblesses présentes dans les systèmes informatiques, telles que les défauts, les bogues ou les erreurs dans l'architecture, la conception ou l'implémentation du logiciel, engendrent des vulnérabilités pouvant être exploitées par des attaquants afin de compromettre la sécurité d'un système. Les Common Weakness Enumerations (CWE) constituent un répertoire hiérarchisé des faiblesses logicielles, offrant une méthodologie pour comprendre les défauts logiciels, l'impact potentiel de leur exploitation, ainsi que les moyens de les atténuer. Les Common Vulnerabilities and Exposures (CVE) sont des descriptions brèves et de bas niveau permettant d'identifier de manière unique les vulnérabilités présentes dans un produit ou un protocole spécifique. La classification ou le mappage des CVE vers les CWE permet de mieux appréhender l'impact des vulnérabilités et d'élaborer des mesures correctives. Étant donné que le mappage manuel des CVE n'est pas une solution viable à grande échelle, les approches automatisées s'imposent comme une nécessité, bien qu'elles soient complexes à mettre en œuvre.Dans cet article, nous proposons un cadre d'apprentissage novateur basé sur les Transformers (V2W-BERT). En s'inspirant de concepts provenant du traitement du langage naturel, de la prédiction de liens et de l'apprentissage transféré, notre méthode surpasse les approches antérieures non seulement pour les instances de CWE dont les données d'entraînement sont abondantes, mais également pour les classes de CWE rares, dont les données d'entraînement sont limitées ou inexistantes. Notre approche montre également des améliorations significatives dans la prédiction de liens pour des instances futures de CVE à partir de données historiques, ce qui en fait une solution prometteuse pour des applications pratiques. En exploitant des données provenant de MITRE et de la National Vulnerability Database (NVD), nous atteignons une précision de prédiction allant jusqu'à 97 % sur des données réparties aléatoirement, et jusqu'à 94 % sur des données réparties temporellement. Nous estimons que ce travail influencera la conception de méthodes et de modèles d'apprentissage plus performants, tout en ouvrant la voie à des applications capables de relever des défis croissants en matière de cybersécurité.