HyperAIHyperAI
il y a 17 jours

Clinical-Longformer et Clinical-BigBird : Transformers pour les séquences cliniques longues

Yikuan Li, Ramsey M. Wehbe, Faraz S. Ahmad, Hanyin Wang, Yuan Luo
Clinical-Longformer et Clinical-BigBird : Transformers pour les séquences cliniques longues
Résumé

Les modèles fondés sur les Transformers, tels que BERT, ont considérablement amélioré les performances sur diverses tâches de traitement du langage naturel. Le modèle enrichi en connaissances cliniques, nommé ClinicalBERT, a également atteint des résultats de pointe sur les tâches de reconnaissance d'entités nommées cliniques et d'inférence linguistique naturelle. L'une des principales limites de ces modèles Transformers réside dans la consommation mémoire importante due à leur mécanisme d'attention auto-complète. Pour surmonter ce problème, des modèles Transformers capables de traiter des séquences longues, tels que Longformer et BigBird, ont été proposés en introduisant une mécanique d'attention creuse, permettant de réduire la consommation mémoire de l'échelle quadratique à l'échelle linéaire par rapport à la longueur de la séquence. Ces modèles ont étendu la longueur maximale d'entrée de 512 à 4096, améliorant ainsi la capacité à modéliser les dépendances à long terme et aboutissant à des résultats optimaux dans de nombreuses tâches. Inspirés par le succès de ces modèles Transformers à séquences longues, nous introduisons deux modèles linguistiques enrichis pour un domaine spécifique, nommés Clinical-Longformer et Clinical-BigBird, pré-entraînés à partir de grandes corpora cliniques. Nous évaluons ces deux modèles pré-entraînés sur 10 tâches de référence, incluant la reconnaissance d'entités nommées, la réponse aux questions et la classification de documents. Les résultats démontrent que Clinical-Longformer et Clinical-BigBird surpassent de manière cohérente et significative ClinicalBERT ainsi que d'autres modèles Transformers à séquences courtes sur toutes les tâches descendantes. Nous mettons à disposition notre code source à l'adresse suivante : [https://github.com/luoyuanlab/Clinical-Longformer], et les modèles pré-entraînés sont disponibles au téléchargement public à l'adresse : [https://huggingface.co/yikuan8/Clinical-Longformer].