Génération de code à partir de langage naturel avec moins de connaissances préalables et plus de données monolingues

Les jeux de données d'entraînement pour la parssage sémantique sont généralement de petite taille en raison de l'expertise plus élevée requise pour l'annotation par rapport à la plupart des autres tâches de traitement du langage naturel. En conséquence, les modèles destinés à cette application doivent habituellement intégrer des connaissances a priori supplémentaires dans leur architecture ou leur algorithme. Ce degré accru de dépendance vis-à-vis des experts humains entrave l'automatisation et augmente les coûts de développement et de maintenance dans la pratique. Ce travail explore la question de savoir si un modèle générique basé sur les transformateurs et utilisant une architecture seq2seq peut atteindre des performances compétitives avec une conception minimale d'inductive bias spécifique à la génération de code. En exploitant un corpus monolingue relativement volumineux dans le langage de programmation cible, facile à extraire à faible coût à partir du web, nous avons obtenu une précision exact-match de 81,03 % sur Django et un score BLEU de 32,57 sur CoNaLa. Ces résultats représentent, à notre connaissance, les meilleurs résultats atteints (SOTA) à ce jour. Ces résultats positifs mettent en lumière une voie potentiellement plus simple pour concevoir des parseurs sémantiques précis dans la pratique.