SciDeBERTa : Apprendre DeBERTa pour les documents en sciences et technologie et ajuster finement les tâches d'extraction d'information
Les modèles de langage basés sur l’apprentissage profond (LM) ont dépassé la référence or (baseline humaine) des benchmarks SQuAD 1.1 et GLUE respectivement en avril et juillet 2019. À partir de 2022, les cinq meilleurs modèles de langage sur le classement du benchmark SuperGLUE ont dépassé cette référence or. Même les individus possédant une bonne connaissance générale éprouvent des difficultés à résoudre des problèmes dans des domaines spécialisés tels que la médecine ou l’intelligence artificielle. Tout comme les humains acquièrent des connaissances spécialisées à travers des études de licence, master et doctorat, les modèles de langage doivent également suivre un processus permettant de développer leur capacité à comprendre les connaissances spécifiques à un domaine. Ainsi, cette étude propose SciDeBERTa et SciDeBERTa(CS) comme modèles pré-entraînés (PLM) spécialisés dans le domaine des sciences et technologies. Nous avons poursuivi l’entraînement préalable du modèle DeBERTa, initialement entraîné sur un corpus général, en utilisant un corpus spécifique au domaine des sciences et technologies. Les expériences ont confirmé que SciDeBERTa(CS), pré-entraîné de manière continue dans le domaine informatique, a atteint des taux de précision respectivement supérieurs de 3,53 % et 2,17 % à ceux de SciBERT et S2ORC-SciBERT, deux modèles pré-entraînés spécialisés dans les sciences et technologies, sur la tâche de reconnaissance des entités dans le jeu de données SciERC. Dans la tâche JRE du jeu de données SciERC, SciDeBERTa(CS) a affiché une performance supérieure de 6,7 % par rapport au modèle de base SCIIE. Sur le jeu de données Genia, SciDeBERTa a obtenu les meilleurs résultats par rapport à S2ORC-SciBERT, SciBERT, BERT, DeBERTa et SciDeBERTa(CS). En outre, une étude a été menée sur la technologie de réinitialisation et des optimiseurs post-Adam durant le fin-tuning afin d’évaluer la compréhension linguistique des PLM.