Réévaluer les architectures de réseaux neuronaux complexes pour la classification de documents

Depuis quelques années, les modèles de réseaux de neurones utilisés pour de nombreuses tâches de traitement du langage naturel (NLP) sont devenus de plus en plus complexes, ce qui rend leur entraînement et leur déploiement de plus en plus difficiles. Plusieurs travaux récents ont remis en question la nécessité de telles architectures et ont montré que des modèles plus simples, bien conçus, s'avèrent tout aussi efficaces. Nous démontrons que cette observation s'applique également à la classification de documents : dans une étude de reproductibilité à grande échelle portant sur plusieurs modèles neuronaux récents, nous constatons qu'une architecture BiLSTM simple, munie d'une régularisation appropriée, atteint des performances en précision et en score F1 soit comparables, soit supérieures à l'état de l'art sur quatre jeux de données standards. De manière surprenante, notre modèle simple parvient à obtenir ces résultats sans recourir à des mécanismes d'attention. Bien que les techniques de régularisation utilisées — empruntées au domaine du modèle de langage — ne soient pas nouvelles, à notre connaissance, nous sommes les premiers à les appliquer dans ce contexte. Ce travail fournit une plateforme open source et constitue une base solide pour les recherches futures en classification de documents.