HyperAIHyperAI
il y a 11 jours

Stratégies d'embedding pour des domaines spécialisés : application à la reconnaissance d'entités cliniques

{Pierre Zweigenbaum, Olivier Ferret, Hicham El Boukkouri, Thomas Lavergne}
Stratégies d'embedding pour des domaines spécialisés : application à la reconnaissance d'entités cliniques
Résumé

L’utilisation d’embeddings de mots pré-entraînés en combinaison avec des modèles d’apprentissage profond est devenue la méthode « de facto » en traitement du langage naturel (NLP). Bien que cette approche donne généralement des résultats satisfaisants, les embeddings de mots disponibles en standard se révèlent souvent insuffisants pour les textes provenant de domaines spécialisés, tels que les rapports cliniques. De plus, l’entraînement de représentations de mots spécifiques à partir de zéro est souvent impossible ou inefficace en raison du manque de données suffisamment volumineuses au sein du domaine cible. Dans ce travail, nous nous concentrons sur le domaine clinique, pour lequel nous étudions des stratégies d’embeddings reposant uniquement sur des ressources issues de domaines généraux. Nous démontrons qu’en combinant des embeddings contextuels pré-entraînés (ELMo) avec des embeddings statiques word2vec entraînés sur un petit corpus spécifique au domaine construit à partir des données de la tâche, il est possible d’atteindre, voire de dépasser, les performances des représentations apprises à partir d’un grand corpus médical.

Stratégies d'embedding pour des domaines spécialisés : application à la reconnaissance d'entités cliniques | Articles de recherche récents | HyperAI