HyperAIHyperAI
vor 12 Tagen

CoDesc: Ein großes paralleles Datensatz aus Code und Beschreibung

Masum Hasan, Tanveer Muttaqueen, Abdullah Al Ishtiaq, Kazi Sajeed Mehrab, Md. Mahim Anjum Haque, Tahmid Hasan, Wasi Uddin Ahmad, Anindya Iqbal, Rifat Shahriyar
CoDesc: Ein großes paralleles Datensatz aus Code und Beschreibung
Abstract

Die Übersetzung zwischen natürlicher Sprache und Quellcode kann die Softwareentwicklung unterstützen, indem Entwickler Programme in natürlicher Sprache verstehen, konzipieren, suchen und schreiben können. Trotz wachsender Aufmerksamkeit aus Industrie und Forschungsgemeinschaft ist diese Aufgabe oft schwierig, da fehlende große, standardisierte Datensätze für die Schulung tiefer neuronalen Modelle, standardisierte Methoden zur Rauschreduzierung sowie Evaluierungsbenchmarks fehlen. Dies zwingt Forscher dazu, neue, kleinere Datensätze zu sammeln, was zu Inkonsistenzen zwischen veröffentlichten Arbeiten führt. In dieser Studie präsentieren wir CoDesc – einen großen parallelen Datensatz, bestehend aus 4,2 Millionen Java-Methoden und entsprechenden natürlichen Sprachbeschreibungen. Durch umfassende Analysen identifizieren und entfernen wir dominierende Rauschmuster aus dem Datensatz. Wir zeigen die Leistungsfähigkeit von CoDesc bei zwei ergänzenden Aufgaben für Code-Beschreibungspaare: Code-Zusammenfassung und Code-Suche. Wir belegen, dass der Datensatz die Code-Suche um bis zu 22 % verbessert und die neue State-of-the-Art-Leistung in der Code-Zusammenfassung erreicht. Zudem zeigen wir die Wirksamkeit von CoDesc im Pre-Training–Fine-Tuning-Setup, was neue Möglichkeiten für die Entwicklung vortrainierter Sprachmodelle für Java eröffnet. Um zukünftige Forschung zu erleichtern, veröffentlichen wir den Datensatz, ein Werkzeug zur Datenaufbereitung sowie einen Benchmark unter \url{https://github.com/csebuetnlp/CoDesc}.