BioBART : Préentraînement et évaluation d'un modèle linguistique génératif biomédical

Les modèles préentraînés de langage ont joué un rôle fondamental en tant que piliers des traitements du langage naturel. Récemment, l'entraînement préalable spécialisé dans un domaine spécifique s'est révélé bénéfique pour diverses tâches ultérieures adaptées à des domaines particuliers. Dans le domaine biomédical, les tâches de génération de langage naturel (NLG) revêtent une importance cruciale, bien qu'elles soient encore peu étudiées. L'approche de tâches de compréhension du langage naturel (NLU) via la génération contrainte de langage ou l'incitation par des prompts linguistiques a permis d'obtenir des performances satisfaisantes dans le domaine général. Nous mettons en évidence le manque de modèles génératifs spécialisés dans le domaine biomédical ainsi que l'absence de benchmarks systématiques pour les tâches génératives ultérieures, facteurs qui entravent le développement de la communauté de recherche. Dans ce travail, nous introduisons BioBART, un modèle génératif de langage adapté au domaine biomédical, basé sur BART. Nous rassemblons diverses tâches de génération de langage biomédical, notamment les dialogues, la synthèse de texte, l'association d'entités et la reconnaissance d'entités nommées. BioBART, préentraîné sur des résumés PubMed, montre une performance améliorée par rapport à BART et établit des références solides sur plusieurs tâches. En outre, nous menons des études d'ablation sur les tâches d'entraînement préalable de BioBART et constatons que la permutation des phrases exerce un effet négatif sur les tâches ultérieures.