Feinabstimmen großer Sprachmodelle zur Beantwortung von Programmierfragen mit Code-Snippets
Wir untersuchen die Fähigkeit vortrainierter großer Sprachmodelle (LLM) zur Beantwortung von Fragen aus Online-Foren zur Fragebeantwortung, wie Stack Overflow. Dabei betrachten wir Frage-Antwort-Paare, bei denen der Hauptteil der Antwort aus Quellcode besteht. An zwei Benchmark-Datensätzen – CoNaLa und einem neu gesammelten Datensatz basierend auf Stack Overflow – untersuchen wir, wie ein geschlossenes Buch-Fragebeantwortungssystem durch Fine-Tuning des LLM für die spezifische Aufgabe, Prompt-Engineering und Datenaufbereitung verbessert werden kann. Wir verwenden öffentlich verfügbare autoregressive Sprachmodelle wie GPT-Neo, CodeGen und PanGu-Coder. Nach dem vorgeschlagenen Fine-Tuning erreichen wir auf dem CoNaLa-Testset einen BLEU-Score von 0,4432, was signifikant über dem bisherigen Stand der Technik für diese Aufgabe liegt.