HyperAIHyperAI
vor 13 Tagen

Code-Generierung aus natürlicher Sprache mit weniger Vorwissen und mehr monolingualen Daten

Sajad Norouzi, Keyi Tang, Yanshuai Cao
Code-Generierung aus natürlicher Sprache mit weniger Vorwissen und mehr monolingualen Daten
Abstract

Trainingsdatensätze für die semantische Analyse sind typischerweise klein, da für die Annotation mehr fachliche Expertise erforderlich ist als bei den meisten anderen NLP-Aufgaben. Daher müssen Modelle für diese Anwendung gewöhnlich zusätzliche vorherige Wissensbasis in Architektur oder Algorithmus integriert werden. Die erhöhte Abhängigkeit von menschlichen Experten behindert die Automatisierung und erhöht in der Praxis Entwicklung- und Wartungskosten. Diese Arbeit untersucht, ob ein generisches, auf Transformers basierendes Seq2Seq-Modell konkurrenzfähige Leistung erzielen kann, ohne spezifische induktive Voreingenommenheit im Hinblick auf Codegenerierung zu erfordern. Durch die Nutzung einer relativ großen monolingualen Korpus der Zielsprache, die kostengünstig aus dem Web gewonnen werden kann, erreichten wir eine exakte Übereinstimmung von 81,03 % auf Django und einen BLEU-Score von 32,57 auf CoNaLa. Beide Werte stellen, soweit uns bekannt, den derzeitigen Stand der Technik (SOTA) dar. Diese positiven Ergebnisse weisen auf einen potenziell einfacheren Weg hin, um in der Praxis präzise semantische Parser zu entwickeln.

Code-Generierung aus natürlicher Sprache mit weniger Vorwissen und mehr monolingualen Daten | Neueste Forschungsarbeiten | HyperAI