HyperAI

Code Assistance bezieht sich auf die Nutzung verschiedener Tools, Techniken und Modelle, um Entwickler im Prozess der Softwareentwicklung zu unterstützen. Da Codieraufgaben zunehmend komplexer werden, spielt die Code-Assistenz eine entscheidende Rolle bei der Steigerung der Produktivität von Entwicklern, der Reduzierung von Fehlern und der Verbesserung der Effizienz des Entwicklungsworkflows. Diese Unterstützung kann sich in unterschiedlichen Formen äußern, beispielsweise durch Code-Autocompletion, Fehlererkennung und -korrektur, Code-Generierung, Dokumentationsunterstützung sowie kontextbewusste Vorschläge. Sprachmodelle sind zu integralen Bestandteilen der Code-Assistenz geworden und ermöglichen Entwicklern intelligente Vorschläge, die Erzeugung von Code-Snippets sowie eine insgesamt verbesserte Codierungsqualität. In diesem Paper stellen wir neue hybride Modelle für die Code-Generierung vor, indem wir vortrainierte Sprachmodelle wie BERT, RoBERTa, ELECTRA und LUKE mit dem Marian Causal Language Model kombinieren. Die Auswahl dieser Modelle basiert auf ihrer herausragenden Leistung in verschiedenen Aufgaben des Natural Language Processing. Wir bewerten die Leistung dieser Modelle anhand zweier Datensätze, CoNaLa und DJANGO, und vergleichen sie mit bestehenden state-of-the-art-Modellen. Ziel ist es, das Potenzial vortrainierter Transformer-Sprachmodelle zu untersuchen, um die Code-Generierung zu revolutionieren und präzisere sowie effizientere Lösungen für komplexe Programmieraufgaben bereitzustellen. Zudem führen wir eine Fehleranalyse durch und optimieren die generierten Code-Ausgaben. Unsere Ergebnisse zeigen, dass diese Modelle, insbesondere in Kombination mit dem Marian-Decoder, die Genauigkeit und Effizienz der Code-Generierung erheblich verbessern. Insbesondere erreichte das RoBERTaMarian-Modell auf CoNaLa einen maximalen BLEU-Score von 35,74 und eine exakte Übereinstimmungspräzision von 13,8 %, während LUKE-Marian auf DJANGO einen BLEU-Score von 89,34 und eine exakte Übereinstimmungspräzision von 78,50 % erzielte. Die Implementierung dieser Arbeit ist unter https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation verfügbar.

Benchmark	Methodik	Metriken
code-generation-on-conala	ELECTRAMarian	BLEU: 30.18 Exact Match Accuracy: 10.0
code-generation-on-conala	RoBERTaMarian	BLEU: 35.74 Exact Match Accuracy: 13.8
code-generation-on-conala	BERTMarian	BLEU: 32.46 Exact Match Accuracy: 12.40
code-generation-on-conala	LUKEMarian	BLEU: 29.83 Exact Match Accuracy: 7.6
code-generation-on-django	LUKEMarian	Accuracy: 78.50 BLEU Score: 89.34
code-generation-on-django	RoBERTaMarian	Accuracy: 77.95 BLEU Score: 88.91
code-generation-on-django	BERTMarian	Accuracy: 76.68 BLEU Score: 56.55
code-generation-on-django	ELECTRAMarian	Accuracy: 65.32 BLEU Score: 53.02

Einsetzen vortrainierter Sprachmodelle zur Codegenerierung

{Mayada Hadhoud Samir Shaheen Ahmed Soliman}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters