Comment le nommage influence-t-il les LLM sur les tâches d'analyse de code ?

Les grands modèles linguistiques (LLM), tels que GPT et BERT, ont été proposés pour le traitement du langage naturel (NLP) et ont démontré des résultats prometteurs en tant que modèles linguistiques polyvalents. Un nombre croissant de professionnels de l’industrie et de chercheurs adoptent désormais les LLM pour des tâches d’analyse de code. Toutefois, une différence significative entre les langages de programmation et les langages naturels réside dans le fait qu’un programmeur dispose d’une grande liberté pour attribuer des noms arbitraires aux variables, méthodes et fonctions dans un programme, tandis qu’un rédacteur de langage naturel n’a pas cette liberté. Intuitivement, la qualité de la nomenclature dans un programme influence directement les performances des LLM sur les tâches d’analyse de code. Ce papier explore l’impact de la nomenclature sur les LLM dans les tâches d’analyse de code. Plus précisément, nous avons conçu un ensemble de jeux de données comprenant du code contenant des noms absurdes ou trompeurs pour les variables, méthodes et fonctions, respectivement. Nous avons ensuite utilisé des modèles bien entraînés (CodeBERT) pour effectuer des tâches d’analyse de code sur ces jeux de données. Les résultats expérimentaux montrent qu’un impact significatif de la nomenclature sur les performances des tâches d’analyse de code fondées sur les LLM, indiquant que l’apprentissage de représentation du code basé sur les LLM dépend fortement de noms bien définis dans le code. En outre, nous avons mené une étude de cas sur certaines tâches spécifiques d’analyse de code à l’aide de GPT, offrant ainsi des perspectives supplémentaires.