Étiquetage de séquences de bout en bout via des LSTM-CNNs-CRF bidirectionnelles

Les systèmes de labellisation de séquences les plus avancés nécessitent traditionnellement de grandes quantités de connaissances spécifiques à la tâche sous forme de caractéristiques conçues manuellement et de prétraitement des données. Dans cet article, nous présentons une nouvelle architecture de réseau neuronal qui bénéficie automatiquement à la fois des représentations au niveau des mots et des caractères, en utilisant une combinaison de LSTM bidirectionnels, CNN et CRF. Notre système est véritablement intégré de bout en bout, ne nécessitant aucune ingénierie de caractéristiques ni aucun prétraitement des données, ce qui le rend applicable à un large éventail de tâches de labellisation de séquences. Nous évaluons notre système sur deux ensembles de données pour deux tâches de labellisation de séquences : le corpus Penn Treebank WSJ pour l'étiquetage morpho-syntaxique (POS) et le corpus CoNLL 2003 pour la reconnaissance d'entités nommées (NER). Nous obtenons des performances d'état de l'art sur les deux ensembles de données : une précision de 97,55 % pour l'étiquetage POS et un score F1 de 91,21 % pour la reconnaissance d'entités nommées (NER).