il y a 11 jours

Amélioration sémantique de clauses interprétables à l’aide de représentations pré-entraînées de mots

Rohan Kumar Yadav, Lei Jiao, Ole-Christoffer Granmo, Morten Goodwin

Résumé

La Machine de Tsetlin (TM) est un algorithme de reconnaissance de motifs interprétable fondé sur la logique propositionnelle, qui a démontré des performances compétitives dans de nombreuses tâches de traitement du langage naturel (NLP), notamment l’analyse de sentiment, la classification de texte et le sens des mots (Word Sense Disambiguation). Pour assurer une interprétabilité au niveau humain, les versions classiques de la TM utilisent des caractéristiques d’entrée booléennes, telles que le modèle « sac de mots » (bag-of-words, BOW). Toutefois, cette représentation BOW rend difficile l’utilisation d’informations pré-entraînées, comme les représentations de mots word2vec ou GloVe. Cette limitation a restreint les performances de la TM par rapport aux réseaux neuronaux profonds (DNNs) dans le domaine du NLP. Afin de réduire cet écart de performance, nous proposons dans cet article une nouvelle approche pour intégrer des représentations de mots pré-entraînées dans la TM. Cette méthode améliore significativement à la fois la performance et l’interprétabilité de la TM. Nous y parvenons en extrayant des mots sémantiquement liés à partir des représentations de mots pré-entraînées afin de les utiliser comme caractéristiques d’entrée pour la TM. Nos expérimentations montrent que la précision de l’approche proposée est nettement supérieure à celle de la TM basée sur BOW, atteignant un niveau comparable aux modèles fondés sur les DNNs.