HyperAIHyperAI

Command Palette

Search for a command to run...

CoDesc: Ein großes paralleles Datensatz aus Code und Beschreibung

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Zusammenfassung

Die Übersetzung zwischen natürlicher Sprache und Quellcode kann die Softwareentwicklung unterstützen, indem Entwickler Programme in natürlicher Sprache verstehen, konzipieren, suchen und schreiben können. Trotz wachsender Aufmerksamkeit aus Industrie und Forschungsgemeinschaft ist diese Aufgabe oft schwierig, da fehlende große, standardisierte Datensätze für die Schulung tiefer neuronalen Modelle, standardisierte Methoden zur Rauschreduzierung sowie Evaluierungsbenchmarks fehlen. Dies zwingt Forscher dazu, neue, kleinere Datensätze zu sammeln, was zu Inkonsistenzen zwischen veröffentlichten Arbeiten führt. In dieser Studie präsentieren wir CoDesc – einen großen parallelen Datensatz, bestehend aus 4,2 Millionen Java-Methoden und entsprechenden natürlichen Sprachbeschreibungen. Durch umfassende Analysen identifizieren und entfernen wir dominierende Rauschmuster aus dem Datensatz. Wir zeigen die Leistungsfähigkeit von CoDesc bei zwei ergänzenden Aufgaben für Code-Beschreibungspaare: Code-Zusammenfassung und Code-Suche. Wir belegen, dass der Datensatz die Code-Suche um bis zu 22 % verbessert und die neue State-of-the-Art-Leistung in der Code-Zusammenfassung erreicht. Zudem zeigen wir die Wirksamkeit von CoDesc im Pre-Training–Fine-Tuning-Setup, was neue Möglichkeiten für die Entwicklung vortrainierter Sprachmodelle für Java eröffnet. Um zukünftige Forschung zu erleichtern, veröffentlichen wir den Datensatz, ein Werkzeug zur Datenaufbereitung sowie einen Benchmark unter \url{https://github.com/csebuetnlp/CoDesc}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp