vor 13 Tagen

Code-Vorhersage durch Eingabe von Bäumen in Transformer

Seohyun Kim, Jinman Zhao, Yuchi Tian, Satish Chandra

Abstract

Wir verbessern den Stand der Technik hinsichtlich der Genauigkeit der Code-Vorhersage (Next-Token-Prediction), die in Autocomplete-Systemen eingesetzt wird. Zunächst zeigen wir, dass die kürzlich vorgeschlagene Transformer-Architektur bereits „out-of-the-box“ die Leistung früherer neuronaler und nicht-neuraler Systeme für die Code-Vorhersage übertrifft. Anschließend demonstrieren wir, dass die Leistung eines Transformer-basierten Systems weiter gesteigert werden kann, indem die Architektur bewusst mit der syntaktischen Struktur des Codes versorgt wird. Auf diese Weise übertrifft unser Ansatz die Genauigkeit eines RNN-basierten Systems (ähnlich Hellendoorn et al. 2018) um 18,3 %, die des Deep3-Systems (Raychev et al. 2016) um 14,1 % und eine Anpassung von Code2Seq (Alon et al., 2018) für die Code-Vorhersage um 14,4 %.In der vorliegenden Arbeit präsentieren wir mehrere Ansätze, um der Transformer-Architektur – die ursprünglich für die Verarbeitung von Sequenzdaten konzipiert ist – die Struktur des Codes zu vermitteln. Wir führen eine umfassende experimentelle Evaluation unserer Methode durch, einschließlich alternativer Design-Entscheidungen, auf einem Standard-Python-Datensatz sowie auf einer internen Python-Korpus von Facebook. Unser Code und das Datenpräparations-Tool werden in der Open-Source-Community zur Verfügung gestellt.