HyperAIHyperAI
il y a 2 mois

Attention Auto-Référencée Informatisée Linguistiquement pour l'Étiquetage des Rôles Sémantiques

Emma Strubell; Patrick Verga; Daniel Andor; David Weiss; Andrew McCallum
Attention Auto-Référencée Informatisée Linguistiquement pour l'Étiquetage des Rôles Sémantiques
Résumé

L'état de l'art actuel en matière d'étiquetage des rôles sémantiques (SRL) utilise un réseau neuronal profond sans caractéristiques linguistiques explicites. Cependant, des travaux antérieurs ont montré que les arbres syntaxiques d'or peuvent améliorer considérablement la décodification SRL, suggérant la possibilité d'une précision accrue grâce à une modélisation explicite de la syntaxe. Dans ce travail, nous présentons l'auto-attention informée par la linguistique (LISA) : un modèle de réseau neuronal qui combine l'auto-attention multi-têtes avec l'apprentissage multi-tâches sur le parsing des dépendances, l'étiquetage des parties du discours, la détection des prédicats et le SRL. Contrairement aux modèles précédents qui nécessitent un pré-traitement important pour préparer les caractéristiques linguistiques, LISA peut intégrer la syntaxe en utilisant uniquement des jetons bruts comme entrée, encodant la séquence une seule fois pour effectuer simultanément le parsing, la détection des prédicats et l'étiquetage des rôles pour tous les prédicats. La syntaxe est intégrée en formant une tête d'attention à se concentrer sur les parents syntaxiques de chaque jeton. De plus, si une analyse syntaxique de haute qualité est déjà disponible, elle peut être injectée de manière avantageuse au moment du test sans réentraîner notre modèle SRL. Dans les expériences sur le SRL CoNLL-2005, LISA atteint de nouvelles performances record pour un modèle utilisant des prédicats prédits et des plongements de mots standards, obtenant 2,5 points F1 absolus de mieux que l'état de l'art précédent sur les dépêches et plus de 3,5 points F1 sur les données hors domaine, soit une réduction presque de 10 % des erreurs. Sur le SRL anglais CoNLL-2012, nous montrons également une amélioration supérieure à 2,5 points F1. LISA surpass également l'état de l'art avec des représentations contextuelles (ELMo) des mots par près de 1 point F1 sur les nouvelles et plus de 2 points F1 sur le texte hors domaine.Note: - "gold syntax trees" a été traduit par "arbres syntaxiques d'or", qui est une expression courante dans ce domaine.- "raw tokens" a été traduit par "jetons bruts".- "parsing" a été conservé tel quel car c'est un terme technique couramment utilisé en français.- "standard word embeddings" a été traduit par "plongements de mots standards".- Les sigles tels que "SRL", "CoNLL", et "ELMo" ont été conservés tels quels car ils sont généralement utilisés tels quels dans les publications scientifiques francophones.

Attention Auto-Référencée Informatisée Linguistiquement pour l'Étiquetage des Rôles Sémantiques | Articles de recherche récents | HyperAI