HyperAIHyperAI
vor 13 Tagen

Einsetzen vortrainierter Sprachmodelle zur Codegenerierung

{Mayada Hadhoud, Samir Shaheen, Ahmed Soliman}
Einsetzen vortrainierter Sprachmodelle zur Codegenerierung
Abstract

Code Assistance bezieht sich auf die Nutzung verschiedener Tools, Techniken und Modelle, um Entwickler im Prozess der Softwareentwicklung zu unterstützen. Da Codieraufgaben zunehmend komplexer werden, spielt die Code-Assistenz eine entscheidende Rolle bei der Steigerung der Produktivität von Entwicklern, der Reduzierung von Fehlern und der Verbesserung der Effizienz des Entwicklungsworkflows. Diese Unterstützung kann sich in unterschiedlichen Formen äußern, beispielsweise durch Code-Autocompletion, Fehlererkennung und -korrektur, Code-Generierung, Dokumentationsunterstützung sowie kontextbewusste Vorschläge. Sprachmodelle sind zu integralen Bestandteilen der Code-Assistenz geworden und ermöglichen Entwicklern intelligente Vorschläge, die Erzeugung von Code-Snippets sowie eine insgesamt verbesserte Codierungsqualität. In diesem Paper stellen wir neue hybride Modelle für die Code-Generierung vor, indem wir vortrainierte Sprachmodelle wie BERT, RoBERTa, ELECTRA und LUKE mit dem Marian Causal Language Model kombinieren. Die Auswahl dieser Modelle basiert auf ihrer herausragenden Leistung in verschiedenen Aufgaben des Natural Language Processing. Wir bewerten die Leistung dieser Modelle anhand zweier Datensätze, CoNaLa und DJANGO, und vergleichen sie mit bestehenden state-of-the-art-Modellen. Ziel ist es, das Potenzial vortrainierter Transformer-Sprachmodelle zu untersuchen, um die Code-Generierung zu revolutionieren und präzisere sowie effizientere Lösungen für komplexe Programmieraufgaben bereitzustellen. Zudem führen wir eine Fehleranalyse durch und optimieren die generierten Code-Ausgaben. Unsere Ergebnisse zeigen, dass diese Modelle, insbesondere in Kombination mit dem Marian-Decoder, die Genauigkeit und Effizienz der Code-Generierung erheblich verbessern. Insbesondere erreichte das RoBERTaMarian-Modell auf CoNaLa einen maximalen BLEU-Score von 35,74 und eine exakte Übereinstimmungspräzision von 13,8 %, während LUKE-Marian auf DJANGO einen BLEU-Score von 89,34 und eine exakte Übereinstimmungspräzision von 78,50 % erzielte. Die Implementierung dieser Arbeit ist unter https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation verfügbar.

Einsetzen vortrainierter Sprachmodelle zur Codegenerierung | Neueste Forschungsarbeiten | HyperAI