Conducteur de Phase sur des Attentions Multicouches pour la Compréhension par Machine

Les modèles d'attention ont été intensivement étudiés pour améliorer les tâches de traitement du langage naturel (NLP), telles que la compréhension machine, grâce à des modèles d'attention de passage sensible aux questions et à des modèles d'attention d'automaticité. Notre recherche propose le conducteur de phase (PhaseCond) pour les modèles d'attention de deux manières significatives. Premièrement, PhaseCond, une architecture de modèles d'attention multicouches, est composé de plusieurs phases, chacune mettant en œuvre une pile de couches d'attention produisant des représentations de passage et une pile de couches de fusion interne ou externe régulant le flux d'information. Deuxièmement, nous étendons et améliorons la fonction d'attention par produit scalaire pour PhaseCond en codant simultanément plusieurs couches d'embedding de questions et de passages sous différents angles. Nous démontrons l'efficacité de notre modèle proposé, PhaseCond, sur l'ensemble de données SQuAD, montrant que notre modèle surpasse considérablement les modèles d'attention monocouche et multicouche les plus avancés actuellement disponibles. Nous approfondissons nos résultats avec de nouvelles découvertes grâce à une analyse qualitative détaillée et à des exemples visualisés illustrant les changements dynamiques au travers des modèles d'attention multicouches.