vor 6 Monaten

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Zusammenfassung

Die Übersetzung zwischen natürlicher Sprache und Quellcode kann die Softwareentwicklung unterstützen, indem Entwickler Programme in natürlicher Sprache verstehen, konzipieren, suchen und schreiben können. Trotz wachsender Aufmerksamkeit aus Industrie und Forschungsgemeinschaft ist diese Aufgabe oft schwierig, da fehlende große, standardisierte Datensätze für die Schulung tiefer neuronalen Modelle, standardisierte Methoden zur Rauschreduzierung sowie Evaluierungsbenchmarks fehlen. Dies zwingt Forscher dazu, neue, kleinere Datensätze zu sammeln, was zu Inkonsistenzen zwischen veröffentlichten Arbeiten führt. In dieser Studie präsentieren wir CoDesc – einen großen parallelen Datensatz, bestehend aus 4,2 Millionen Java-Methoden und entsprechenden natürlichen Sprachbeschreibungen. Durch umfassende Analysen identifizieren und entfernen wir dominierende Rauschmuster aus dem Datensatz. Wir zeigen die Leistungsfähigkeit von CoDesc bei zwei ergänzenden Aufgaben für Code-Beschreibungspaare: Code-Zusammenfassung und Code-Suche. Wir belegen, dass der Datensatz die Code-Suche um bis zu 22 % verbessert und die neue State-of-the-Art-Leistung in der Code-Zusammenfassung erreicht. Zudem zeigen wir die Wirksamkeit von CoDesc im Pre-Training–Fine-Tuning-Setup, was neue Möglichkeiten für die Entwicklung vortrainierter Sprachmodelle für Java eröffnet. Um zukünftige Forschung zu erleichtern, veröffentlichen wir den Datensatz, ein Werkzeug zur Datenaufbereitung sowie einen Benchmark unter \url{https://github.com/csebuetnlp/CoDesc}.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Datensatz

Natürliche Sprachverarbeitung

Any-to-Any

KI-Infrastruktur

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Datensatz

Natürliche Sprachverarbeitung

Any-to-Any

KI-Infrastruktur

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CoDesc: Ein großes paralleles Datensatz aus Code und Beschreibung

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoDesc: Ein großes paralleles Datensatz aus Code und Beschreibung

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoDesc: Ein großes paralleles Datensatz aus Code und Beschreibung

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters