Amélioration de l’extraction des concepts cliniques avec des plongements contextuels

Les représentations basées sur les réseaux de neurones (« embeddings ») ont considérablement fait progresser les tâches de traitement automatique des langues naturelles (TALN), notamment les tâches de TALN cliniques telles que l'extraction de concepts. Cependant, récemment, des méthodes et des représentations d'embedding plus avancées (par exemple, ELMo, BERT) ont encore repoussé les limites de l'état de l'art en TALN, sans qu'il existe toutefois de pratiques courantes pour intégrer ces représentations aux tâches cliniques. L'objectif de cette étude est donc d'explorer l'espace des options possibles pour utiliser ces nouveaux modèles dans l'extraction de concepts cliniques, en comparant ces derniers avec les méthodes traditionnelles d'embedding lexical (word2vec, GloVe, fastText). Sont évalués à la fois les embeddings génériques pré-entraînés et disponibles en libre accès, ainsi que les embeddings cliniques pré-entraînés à partir du corpus MIMIC-III. Nous explorons une gamme de méthodes d'embedding comprenant les embeddings lexicaux traditionnels et les embeddings contextuels, et nous comparons leurs performances sur quatre corpus d'extraction de concepts : i2b2 2010, i2b2 2012, SemEval 2014 et SemEval 2015. Nous analysons également l'impact du temps de pré-entraînement d'un grand modèle linguistique comme ELMo ou BERT sur la performance d'extraction. Enfin, nous présentons une méthode intuitive pour comprendre l'information sémantique encodée par les embeddings contextuels. Les embeddings contextuels pré-entraînés sur un vaste corpus clinique atteignent des performances inédites dans toutes les tâches d'extraction de concepts. Le modèle le mieux performant dépasse toutes les méthodes actuelles avec des mesures F1 respectives de 90,25 %, 93,18 % (partiel), 80,74 % et 81,65 %. Nous démontrons le potentiel des embeddings contextuels grâce aux performances exceptionnelles qu'ils atteignent dans l'extraction de concepts cliniques. De plus, nous montrons que ces embeddings contextuels encodent des informations sémantiques précieuses non prises en compte dans les représentations lexicales traditionnelles.