Apprentissage de filtres de convolution sensibles au contexte pour le traitement du texte

Les réseaux de neurones convolutifs (CNNs) sont récemment apparus comme un élément clé populaire pour le traitement du langage naturel (NLP). Malgré leurs succès, la plupart des modèles CNN actuellement utilisés en NLP partagent le même ensemble de filtres appris (et statiques) pour toutes les phrases d'entrée. Dans cet article, nous examinons une approche consistant à utiliser un petit réseau méta pour apprendre des filtres convolutifs sensibles au contexte pour le traitement du texte. Le rôle du réseau méta est d'abstraire l'information contextuelle d'une phrase ou d'un document en un ensemble de filtres adaptés à l'entrée. Nous généralisons davantage ce cadre pour modéliser des paires de phrases, où un mécanisme de génération bidirectionnelle des filtres est introduit afin d'encapsuler des représentations de phrases interdépendantes. Dans nos évaluations sur quatre tâches différentes, incluant la classification d'ontologie, l'analyse de sentiment, la sélection de phrases répondant et l'identification de paraphrases, notre modèle proposé, un CNN modifié avec des filtres sensibles au contexte, surpasse constamment les modèles CNN standards et les baselines basées sur l'attention. En visualisant les filtres sensibles au contexte appris, nous validons et justifions davantage l'efficacité du cadre proposé.