Représentation multimodale pour la recherche de code neuronal

La recherche de code sémantique consiste à identifier des extraits de code sémantiquement pertinents à partir d'une requête formulée en langage naturel. Dans les approches actuelles, la similarité sémantique entre le code et la requête est mesurée par la distance entre leurs représentations dans un espace vectoriel partagé. Dans cet article, afin d'améliorer cet espace vectoriel, nous introduisons des méthodes de sérialisation arborescente appliquées à une forme simplifiée de l'AST (Abstract Syntax Tree) et construisons une représentation multimodale des données de code. Nous menons des expérimentations approfondies sur un seul corpus à grande échelle et multi-langages : CodeSearchNet. Nos résultats montrent que tant les représentations obtenues par sérialisation arborescente que le modèle d'apprentissage multimodal améliorent significativement les performances de la recherche de code. Enfin, nous proposons des métriques de quantification intuitives, orientées vers la complétude des informations sémantiques et syntaxiques présentes dans les données de code, afin d'aider à interpréter les résultats expérimentaux.