Amélioration des embeddings lexicographiques biomédicaux à l’ère des Transformers

Les embeddings de mots biomédicaux sont généralement pré-entraînés sur des corpus de texte libre à l’aide de méthodes neuronales capables de capturer à la fois les propriétés distributionnelles locales et globales. Ils sont ensuite exploités dans des tâches spécifiques grâce à diverses architectures neuronales conçues pour optimiser des objectifs propres à chaque tâche, pouvant inclure un ajustement supplémentaire de ces embeddings. Depuis 2018, toutefois, on observe un changement marqué vers des embeddings contextuels, motivé par les modèles de langage (tels que ELMo, les transformateurs comme BERT, ou ULMFiT). Ces embeddings dynamiques offrent l’avantage supplémentaire de distinguer les homonymes et les acronymes grâce à leur contexte. Toutefois, les embeddings statiques restent pertinents dans les environnements à faible ressource (par exemple, les dispositifs intelligents, les composants IoT) ainsi que pour l’étude de la sémantique lexicale du point de vue de la linguistique computationnelle. Dans ce travail, nous apprenons conjointement des embeddings de mots et de concepts en deux étapes : tout d’abord, par la méthode skip-gram, puis par un affinage ultérieur basé sur des informations de corrélation manifestes dans les paires de concepts de la Méthode de description des sujets médicaux (MeSH) co-occurentes dans les citations biomédicales. Cet affinage est réalisé à l’aide de l’architecture BERT en mode d’entrée à deux phrases, avec une tâche de classification visant à capturer la co-occurrence des paires MeSH. En somme, nous réaffectons une architecture de transformateur (typiquement utilisée pour générer des embeddings dynamiques) afin d’améliorer des embeddings statiques à l’aide de corrélations conceptuelles. Nous évaluons ces embeddings statiques affinés à l’aide de plusieurs jeux de données de corrélation sémantique de mots, développés par des travaux antérieurs. Contrairement aux approches précédentes qui sélectionnaient de manière sélective certains concepts et termes, nous proposons, selon nous, la plus exhaustive évaluation à ce jour des embeddings statiques, avec des améliorations de performance claires sur l’ensemble des jeux de données. Nous mettons à disposition notre code et les embeddings résultants pour une utilisation publique dans des applications futures et des recherches : https://github.com/bionlproc/BERT-CRel-Embeddings