il y a 2 mois

Réseaux de neurones convolutionnels très profonds pour la classification de texte

Alexis Conneau; Holger Schwenk; Loïc Barrault; Yann Lecun

Résumé

L'approche dominante pour de nombreuses tâches en traitement du langage naturel (NLP) est constituée par les réseaux neuronaux récurrents, en particulier les LSTM, et les réseaux neuronaux convolutifs. Cependant, ces architectures sont relativement peu profondes comparées aux réseaux convolutifs profonds qui ont permis d'atteindre l'état de l'art en vision par ordinateur. Nous présentons une nouvelle architecture (VDCNN) pour le traitement du texte qui opère directement au niveau des caractères et utilise uniquement de petites convolutions et des opérations de regroupement. Nous sommes en mesure de montrer que la performance de ce modèle s'améliore avec la profondeur : en utilisant jusqu'à 29 couches convolutives, nous rapportons des améliorations par rapport à l'état de l'art sur plusieurs tâches publiques de classification de texte. Selon nos connaissances, c'est la première fois que des réseaux convolutifs très profonds sont appliqués au traitement du texte.