HyperAIHyperAI
il y a 4 mois

Intégration d'un graphe hétérogène avec une auto-attention sensible aux entités en utilisant des étiquettes de position relative pour un modèle de compréhension de la lecture

Shima Foolad; Kourosh Kiani
Intégration d'un graphe hétérogène avec une auto-attention sensible aux entités en utilisant des étiquettes de position relative pour un modèle de compréhension de la lecture
Résumé

Malgré les progrès significatifs réalisés par les modèles de transformers dans les tâches de compréhension de la lecture machine, ils restent encore insuffisants pour traiter des tâches de raisonnement complexes en raison de l'absence de connaissances explicites dans la séquence d'entrée. Pour remédier à cette limitation, de nombreuses études récentes ont proposé d'introduire des connaissances externes dans le modèle. Cependant, sélectionner des connaissances externes pertinentes, garantir leur disponibilité et nécessiter des étapes supplémentaires de traitement demeurent des défis importants. Dans cet article, nous présentons un nouveau schéma d'attention qui intègre des connaissances de raisonnement issues d'un graphe hétérogène dans l'architecture des transformers sans dépendre de connaissances externes. Le schéma d'attention proposé comprend trois éléments clés : une attention globale-locale pour les jetons mots, une attention graphique pour les jetons entités qui manifestent une forte attention vers les jetons connectés dans le graphe par rapport à ceux non connectés, et la prise en compte du type de relation entre chaque jeton entité et chaque jeton mot. Cela permet une attention optimisée entre les deux si une relation existe. Ce schéma est associé à des étiquettes spéciales de position relative, ce qui lui permet d'intégrer le mécanisme d'auto-attention sensible aux entités de LUKE. Les résultats expérimentaux confirment que notre modèle surpasse tant le modèle LUKE-Graph à la pointe de la technologie que le modèle LUKE de base sur deux jeux de données distincts : ReCoRD, qui met l'accent sur le raisonnement basé sur le sens commun, et WikiHop, qui se concentre sur les défis de raisonnement multi-sauts.