HyperAIHyperAI
vor 12 Tagen

Multimodale Darstellung für neuronale Code-Suche

Jian Gu, Zimin Chen, Martin Monperrus
Multimodale Darstellung für neuronale Code-Suche
Abstract

Semantische Code-Suche bezieht sich auf die Suche nach semantisch relevanten Code-Snippets für eine gegebene natürlichsprachliche Anfrage. In den aktuellen Ansätzen wird die semantische Ähnlichkeit zwischen Code und Anfrage als Abstand ihrer Darstellungen im gemeinsamen Vektorraum quantifiziert. In diesem Paper stellen wir zur Verbesserung des Vektorraums Baum-Serialisierungsmethoden auf einer vereinfachten Form des AST (Abstract Syntax Tree) vor und entwickeln eine multimodale Darstellung für Code-Daten. Wir führen umfangreiche Experimente mit einer einzigen, großskaligen und mehrsprachigen Korpus-Datenquelle durch: CodeSearchNet. Unsere Ergebnisse zeigen, dass sowohl unsere baumserialisierten Darstellungen als auch das multimodale Lernmodell die Leistung der Code-Suche verbessern. Abschließend definieren wir intuitive Quantifizierungsmetriken, die auf die Vollständigkeit der semantischen und syntaktischen Information der Code-Daten ausgerichtet sind, um die experimentellen Befunde besser zu verstehen.