Les structures auto-explicatives améliorent les modèles NLP

Les approches existantes d'explication des modèles d'apprentissage profond en traitement du langage naturel (NLP) souffrent généralement de deux défauts majeurs : (1) le modèle principal et le modèle d'explication sont découplés : un modèle supplémentaire, utilisé comme modèle d'analyse ou modèle de substitution, est nécessaire pour interpréter un modèle existant, ce qui rend les outils d'explication actuels non auto-interprétables ; (2) le modèle d'analyse ne peut expliquer les prédictions du modèle qu'en exploitant des caractéristiques de bas niveau, en calculant des scores de sensibilité pour chaque mot individuel, mais se révèle peu efficace pour des unités textuelles de haut niveau telles que des phrases, des propositions ou des paragraphes. Pour surmonter ces deux limitations, nous proposons dans cet article un cadre simple, général et efficace pour des modèles d'apprentissage profond en NLP, capable d'auto-explication. Le point clé de ce cadre réside dans l'ajout d'une couche supplémentaire, appelée couche d'interprétation, au-dessus de tout modèle NLP existant. Cette couche agrège les informations relatives à chaque segment de texte (text span), leur attribue un poids spécifique, puis combine ces éléments pondérés avant de les introduire dans la fonction softmax pour produire la prédiction finale. Le modèle proposé présente les avantages suivants : (1) les poids associés aux segments de texte rendent le modèle auto-interprétable, sans nécessiter de modèle d'analyse supplémentaire ; (2) le cadre est généralisable et peut être intégré à tout type de structure d'apprentissage profond existante en NLP ; (3) les poids attribués à chaque segment de texte fournissent directement des scores d'importance pour des unités textuelles de haut niveau, telles que les phrases ou les propositions. Pour la première fois, nous démontrons qu'une interprétabilité n'entraîne pas nécessairement une perte de performance : un modèle neuronal utilisant des caractéristiques auto-interprétables atteint des performances supérieures à celles de son homologue sans cette capacité, obtenant ainsi une nouvelle performance de pointe (SOTA) de 59,1 sur SST-5 et une nouvelle performance de pointe de 92,3 sur SNLI.