HyperAIHyperAI

Command Palette

Search for a command to run...

Représentation multimodale pour la recherche de code neuronal

Jian Gu Zimin Chen Martin Monperrus

Résumé

La recherche de code sémantique consiste à identifier des extraits de code sémantiquement pertinents à partir d'une requête formulée en langage naturel. Dans les approches actuelles, la similarité sémantique entre le code et la requête est mesurée par la distance entre leurs représentations dans un espace vectoriel partagé. Dans cet article, afin d'améliorer cet espace vectoriel, nous introduisons des méthodes de sérialisation arborescente appliquées à une forme simplifiée de l'AST (Abstract Syntax Tree) et construisons une représentation multimodale des données de code. Nous menons des expérimentations approfondies sur un seul corpus à grande échelle et multi-langages : CodeSearchNet. Nos résultats montrent que tant les représentations obtenues par sérialisation arborescente que le modèle d'apprentissage multimodal améliorent significativement les performances de la recherche de code. Enfin, nous proposons des métriques de quantification intuitives, orientées vers la complétude des informations sémantiques et syntaxiques présentes dans les données de code, afin d'aider à interpréter les résultats expérimentaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp