HyperAIHyperAI
vor 13 Tagen

Das Lesen von StackOverflow fördert Betrug: Die Hinzufügung von Frage-Text verbessert die extraktive Codegenerierung

Gabriel Orlanski, Alex Gittens
Das Lesen von StackOverflow fördert Betrug: Die Hinzufügung von Frage-Text verbessert die extraktive Codegenerierung
Abstract

Die Beantwortung einer Programmierfrage unter Verwendung lediglich ihres Titels ist schwierig, da wichtige kontextuelle Informationen fehlen. Ausgehend von dieser Beobachtung präsentieren wir eine Korpus von über 40.000 StackOverflow-Frage-Texten, die in Kombination mit den entsprechenden Intentionen aus dem CoNaLa-Datensatz (Yin et al., 2018) genutzt werden sollen. Unter Verwendung sowohl der Intention als auch des Frage-Körpers erreichen wir mit BART eine Baseline-BLEU-Score von 34,35 für diese neue Aufgabe. Durch die Kombination der extrahierten CoNaLa-Daten mit den annotierten Daten erreichen wir eine weitere Verbesserung um 2,8 %, was zu einem BLEU-Score von 35,32 führt. Wir evaluieren vorherige state-of-the-art-CoNaLa-Modelle mit diesem zusätzlichen Datensatz und stellen fest, dass unsere vorgeschlagene Methode, die Kombination aus Frage-Text und extrahierten Daten, den BLEU-Score des vorherigen State-of-the-Art um 71,96 % übertrifft. Schließlich führen wir Ablationsstudien durch, um zu demonstrieren, dass BART ein unsupervisiertes multimodales Lernverfahren darstellt, und untersuchen sein extraktives Verhalten. Der Code und die Daten sind unter https://github.com/gabeorlanski/stackoverflow-encourages-cheating verfügbar.

Das Lesen von StackOverflow fördert Betrug: Die Hinzufügung von Frage-Text verbessert die extraktive Codegenerierung | Neueste Forschungsarbeiten | HyperAI