il y a 6 mois

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Résumé

La traduction entre langage naturel et code source peut faciliter le développement logiciel en permettant aux développeurs de comprendre, concevoir, rechercher et écrire des programmes informatiques à l’aide de langage naturel. Malgré l’intérêt croissant de la part de l’industrie et de la communauté de recherche, cette tâche reste souvent difficile en raison du manque de grands jeux de données standard adaptés à l’entraînement des modèles neuronaux profonds, de méthodes standard de nettoyage des bruits, ainsi que de benchmarks d’évaluation. Cela oblige les chercheurs à collecter de nouveaux jeux de données à petite échelle, entraînant ainsi des incohérences entre les travaux publiés. Dans cette étude, nous présentons CoDesc — un grand jeu de données parallèle composé de 4,2 millions de méthodes Java accompagnées de descriptions en langage naturel. Grâce à une analyse approfondie, nous identifions et éliminons les principaux schémas de bruit présents dans le jeu de données. Nous démontrons la compétence de CoDesc sur deux tâches complémentaires pour les paires code-description : la synthèse de résumés de code et la recherche de code. Nous montrons que ce jeu de données améliore la recherche de code jusqu’à 22 % et atteint un nouveau record d’état de l’art en synthèse de résumés de code. En outre, nous démontrons l’efficacité de CoDesc dans un cadre d’entraînement préalable (pre-training) suivi de réglage fin (fine-tuning), ouvrant ainsi la voie à la construction de modèles linguistiques préentraînés pour Java. Pour favoriser les recherches futures, nous mettons à disposition le jeu de données, un outil de traitement des données et un benchmark à l’adresse suivante : \url{https://github.com/csebuetnlp/CoDesc}.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Jeu De Données

Traitement Du Langage Naturel

Any-to-Any

Infrastructure D'ia

Traitement Du Langage Naturel

Multimodal

Tâche

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Jeu De Données

Traitement Du Langage Naturel

Any-to-Any

Infrastructure D'ia

Traitement Du Langage Naturel

Multimodal

Tâche

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CoDesc : Un grand jeu de données parallèles code-description

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CoDesc : Un grand jeu de données parallèles code-description

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CoDesc : Un grand jeu de données parallèles code-description

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters