vor 2 Monaten

CodeBERT: Ein vortrainiertes Modell für Programmiersprachen und natürliche Sprachen

Feng, Zhangyin ; Guo, Daya ; Tang, Duyu ; Duan, Nan ; Feng, Xiaocheng ; Gong, Ming ; Shou, Linjun ; Qin, Bing ; Liu, Ting ; Jiang, Daxin ; Zhou, Ming

Details der Forschungsarbeit anzeigen

CodeBERT: Ein vortrainiertes Modell für Programmiersprachen und natürliche Sprachen

Abstract

Wir präsentieren CodeBERT, ein bimodales vortrainiertes Modell für Programmiersprachen (PL) und natürliche Sprachen (NL). CodeBERT lernt allgemeine Repräsentationen, die nachgeschaltete NL-PL-Anwendungen wie die Suchfunktion für natürlichsprachliche Codesuche und die Generierung von Code-Dokumentation unterstützen. Wir entwickeln CodeBERT mit einer transformerbasierten neuronalen Architektur und trainieren es mit einer hybriden Zielfunktion, die die vortrainierte Aufgabe der Erkennung ersetzer Tokens umfasst. Diese Aufgabe besteht darin, plausiblen Alternativen zu erkennen, die von Generatoren abgetastet werden. Dies ermöglicht es uns, sowohl bimodale Daten von NL-PL-Paaren als auch unimodale Daten zu nutzen, wobei erstere Eingabetoken für das Modelltraining bereitstellen und letztere dazu beitragen, bessere Generatoren zu lernen. Wir evaluieren CodeBERT anhand zweier NL-PL-Anwendungen durch Feinabstimmung der Modellparameter. Die Ergebnisse zeigen, dass CodeBERT den aktuellen Stand der Technik in beiden Aufgaben der natürlichsprachlichen Codesuche und der Generierung von Code-Dokumentation erreicht. Darüber hinaus untersuchen wir, welche Art von Wissen in CodeBERT gelernt wird, indem wir einen Datensatz für NL-PL-Probing erstellen und in einem Zero-Shot-Einstellung evaluieren, bei der die Parameter des vortrainierten Modells fixiert sind. Die Ergebnisse zeigen, dass CodeBERT bei der NL-PL-Probing besser abschneidet als frühere vortrainierte Modelle.