HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des embeddings lexicographiques biomédicaux à l’ère des Transformers

Jiho Noh Ramakanth Kavuluru

Résumé

Les embeddings de mots biomédicaux sont généralement pré-entraînés sur des corpus de texte libre à l’aide de méthodes neuronales capables de capturer à la fois les propriétés distributionnelles locales et globales. Ils sont ensuite exploités dans des tâches spécifiques grâce à diverses architectures neuronales conçues pour optimiser des objectifs propres à chaque tâche, pouvant inclure un ajustement supplémentaire de ces embeddings. Depuis 2018, toutefois, on observe un changement marqué vers des embeddings contextuels, motivé par les modèles de langage (tels que ELMo, les transformateurs comme BERT, ou ULMFiT). Ces embeddings dynamiques offrent l’avantage supplémentaire de distinguer les homonymes et les acronymes grâce à leur contexte. Toutefois, les embeddings statiques restent pertinents dans les environnements à faible ressource (par exemple, les dispositifs intelligents, les composants IoT) ainsi que pour l’étude de la sémantique lexicale du point de vue de la linguistique computationnelle. Dans ce travail, nous apprenons conjointement des embeddings de mots et de concepts en deux étapes : tout d’abord, par la méthode skip-gram, puis par un affinage ultérieur basé sur des informations de corrélation manifestes dans les paires de concepts de la Méthode de description des sujets médicaux (MeSH) co-occurentes dans les citations biomédicales. Cet affinage est réalisé à l’aide de l’architecture BERT en mode d’entrée à deux phrases, avec une tâche de classification visant à capturer la co-occurrence des paires MeSH. En somme, nous réaffectons une architecture de transformateur (typiquement utilisée pour générer des embeddings dynamiques) afin d’améliorer des embeddings statiques à l’aide de corrélations conceptuelles. Nous évaluons ces embeddings statiques affinés à l’aide de plusieurs jeux de données de corrélation sémantique de mots, développés par des travaux antérieurs. Contrairement aux approches précédentes qui sélectionnaient de manière sélective certains concepts et termes, nous proposons, selon nous, la plus exhaustive évaluation à ce jour des embeddings statiques, avec des améliorations de performance claires sur l’ensemble des jeux de données. Nous mettons à disposition notre code et les embeddings résultants pour une utilisation publique dans des applications futures et des recherches : https://github.com/bionlproc/BERT-CRel-Embeddings


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration des embeddings lexicographiques biomédicaux à l’ère des Transformers | Articles | HyperAI