Pourquoi l'attention ? Analyse des déficiences du BiLSTM et de leurs remèdes dans le cas de la reconnaissance d'entités nommées (NER)

Le BiLSTM est largement utilisé comme module central pour l'NER dans une configuration d'étiquetage séquentiel. Les approches de pointe utilisent le BiLSTM avec des ressources supplémentaires telles que les listes de noms propres, la modélisation linguistique ou la supervision multitâche pour améliorer encore davantage l'NER. Ce papier, en revanche, fait un pas en arrière et se concentre sur l'analyse des problèmes inhérents au BiLSTM lui-même et sur la manière dont l'auto-attention peut apporter des améliorations. Nous démontrons formellement la limitation du (CRF-)BiLSTM dans la modélisation de motifs inter-contextuels pour chaque mot -- la limitation XOR. Ensuite, nous montrons que deux types de structures inter-simples -- l'auto-attention et le Cross-BiLSTM -- peuvent remédier efficacement à ce problème. Nous testons les impacts pratiques de cette lacune sur des jeux de données d'NER réels, tels qu'OntoNotes 5.0 et WNUT 2017, avec des améliorations claires et cohérentes par rapport à la ligne de base, allant jusqu'à 8,7 % pour certaines mentions d'entités multi-jetons. Nous fournissons une analyse approfondie des améliorations sous plusieurs aspects de l'NER, en particulier l'identification des mentions d'entités multi-jetons. Cette étude devrait poser une base solide pour les futures améliorations de l'étiquetage séquentiel NER.(Codes sources : https://github.com/jacobvsdanniel/cross-ner)