Exploration de l'apprentissage séquence-à-séquence dans l'extraction de termes d'aspect

L'extraction de termes d'aspect (ATE) vise à identifier tous les termes d'aspect présents dans une phrase, et est généralement modélisée comme un problème d'étiquetage de séquence. Toutefois, les méthodes basées sur l'étiquetage de séquence ne parviennent pas à exploiter pleinement le sens global de la phrase entière et présentent des limites dans la prise en compte des dépendances entre étiquettes. Pour surmonter ces problèmes, nous proposons d'abord de formaliser l'ATE comme une tâche d'apprentissage séquence-à-séquence (Seq2Seq), dans laquelle la séquence d'entrée est composée de mots et la séquence de sortie d'étiquettes. Parallèlement, afin d'adapter l'apprentissage Seq2Seq à l'ATE, où chaque étiquette correspond de manière biunivoque à un mot, nous concevons des réseaux de cellules à portes (gated unit networks) pour intégrer la représentation du mot correspondant dans le décodeur, ainsi qu'un mécanisme d'attention consciente de la position, qui permet de prêter davantage d'attention aux mots voisins d'un mot cible. Les résultats expérimentaux obtenus sur deux jeux de données montrent que l'apprentissage Seq2Seq est efficace pour l'ATE lorsqu'il est combiné avec les réseaux de cellules à portes et le mécanisme d'attention consciente de la position que nous proposons.