HyperAIHyperAI
il y a 2 mois

CharacterBERT : Réconciliation d'ELMo et BERT pour des représentations ouvertes au niveau des mots à partir de caractères

Hicham El Boukkouri; Olivier Ferret; Thomas Lavergne; Hiroshi Noji; Pierre Zweigenbaum; Junichi Tsujii
CharacterBERT : Réconciliation d'ELMo et BERT pour des représentations ouvertes au niveau des mots à partir de caractères
Résumé

En raison des améliorations convaincantes apportées par BERT, de nombreux modèles de représentation récents ont adopté l'architecture Transformer comme bloc de construction principal, héritant ainsi du système de tokenisation en wordpieces malgré ce dernier n'étant pas intrinsèquement lié à la notion de Transformers. Bien que ce système soit censé offrir un bon équilibre entre la flexibilité des caractères et l'efficacité des mots entiers, l'utilisation de vocabulaires de wordpieces prédéfinis issus du domaine général n'est pas toujours appropriée, en particulier lors de la construction de modèles pour des domaines spécialisés (par exemple, le domaine médical). De plus, l'adoption d'une tokenisation en wordpieces déplace l'attention du niveau mot vers le niveau sous-mot, rendant les modèles conceptuellement plus complexes et potentiellement moins pratiques. Pour ces raisons, nous proposons CharacterBERT, une nouvelle variante de BERT qui abandonne complètement le système de wordpieces et utilise à la place un module Character-CNN pour représenter les mots entiers en consultant leurs caractères. Nous montrons que ce nouveau modèle améliore les performances de BERT sur diverses tâches dans le domaine médical tout en produisant des représentations robustes, au niveau mot et avec un vocabulaire ouvert.

CharacterBERT : Réconciliation d'ELMo et BERT pour des représentations ouvertes au niveau des mots à partir de caractères | Articles de recherche récents | HyperAI