il y a 2 mois

Cell-aware Stacked LSTMs pour la Modélisation des Phrases

Jihun Choi; Taeuk Kim; Sang-goo Lee

Résumé

Nous proposons une méthode consistant à empiler plusieurs couches de mémoire à court et long terme (LSTM) pour modéliser des phrases. Contrairement aux LSTM empilés conventionnels où seuls les états cachés sont utilisés comme entrée pour la couche suivante, l'architecture suggérée accepte à la fois les états cachés et les états de cellule de la couche précédente, et fusionne les informations provenant du contexte gauche et inférieur en utilisant le mécanisme de porte douce des LSTM. Ainsi, l'architecture modifie non seulement la quantité d'informations à transmettre dans la récurrence horizontale, mais aussi dans les connexions verticales, permettant une transmission efficace des caractéristiques utiles extraites des couches inférieures vers les couches supérieures. Nous appelons cette architecture LSTM Empilé Conscient des Cellules (CAS-LSTM) et montrons par des expériences que nos modèles apportent une amélioration significative des performances par rapport aux LSTM standards sur des jeux de données de référence pour l'inférence en langage naturel, la détection de paraphrases, la classification de sentiments et la traduction automatique. Nous effectuons également une analyse qualitative approfondie pour comprendre le comportement interne de l'approche suggérée.