HyperAIHyperAI

Command Palette

Search for a command to run...

Stratégies d'embedding pour des domaines spécialisés : application à la reconnaissance d'entités cliniques

Pierre Zweigenbaum Olivier Ferret Hicham El Boukkouri Thomas Lavergne

Résumé

L’utilisation d’embeddings de mots pré-entraînés en combinaison avec des modèles d’apprentissage profond est devenue la méthode « de facto » en traitement du langage naturel (NLP). Bien que cette approche donne généralement des résultats satisfaisants, les embeddings de mots disponibles en standard se révèlent souvent insuffisants pour les textes provenant de domaines spécialisés, tels que les rapports cliniques. De plus, l’entraînement de représentations de mots spécifiques à partir de zéro est souvent impossible ou inefficace en raison du manque de données suffisamment volumineuses au sein du domaine cible. Dans ce travail, nous nous concentrons sur le domaine clinique, pour lequel nous étudions des stratégies d’embeddings reposant uniquement sur des ressources issues de domaines généraux. Nous démontrons qu’en combinant des embeddings contextuels pré-entraînés (ELMo) avec des embeddings statiques word2vec entraînés sur un petit corpus spécifique au domaine construit à partir des données de la tâche, il est possible d’atteindre, voire de dépasser, les performances des représentations apprises à partir d’un grand corpus médical.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp