Apprendre à Composer des Structures Arborées Spécifiques à la Tâche

Pendant des années, les réseaux neuronaux récursifs (RvNNs) ont fait leurs preuves pour représenter le texte sous forme de vecteurs de longueur fixe et ont obtenu d'excellents résultats sur plusieurs tâches de traitement du langage naturel. Cependant, l'inconvénient majeur des RvNNs est qu'ils nécessitent une entrée structurée, ce qui rend la préparation des données et la mise en œuvre du modèle difficiles. Dans cet article, nous proposons le Gumbel Tree-LSTM, une nouvelle architecture de mémoire à court et long terme (LSTM) arborescente qui apprend à composer des structures arborescentes spécifiques à la tâche uniquement à partir de données textuelles non structurées de manière efficace. Notre modèle utilise l'estimateur Straight-Through Gumbel-Softmax pour sélectionner dynamiquement le nœud parent parmi les candidats et calculer les gradients de la décision discrète. Nous évaluons le modèle proposé sur l'inférence en langage naturel et l'analyse de sentiments, et montrons que notre modèle surpasse ou est au moins comparable aux modèles précédents. Nous constatons également que notre modèle converge significativement plus rapidement que les autres modèles.