Étiquetage des Rôles Sémantiques par Analyse de Dépendance : Exploration des Structures d'Arbre Latentes à l'Intérieur des Arguments

L'étiquetage des rôles sémantiques (SRL) est une tâche fondamentale mais complexe au sein de la communauté du traitement automatique du langage naturel (TALN). Les travaux récents en SRL se divisent principalement en deux approches : 1) basée sur le format BIO ; 2) basée sur les segments. Malgré leur omniprésence, ces méthodes présentent certaines limitations inhérentes liées à l'absence de prise en compte des structures internes des arguments, ce qui peut potentiellement entraver l'expressivité du modèle. Le défi majeur réside dans le fait que les arguments sont des structures plates et qu'il n'existe pas de réalisations sous-arbres déterminées pour les mots à l'intérieur des arguments. Pour remédier à cette situation, dans cet article, nous proposons de considérer les segments d'arguments plats comme des sous-arbres latents, transformant ainsi le problème de SRL en une tâche de parsing d'arbre. Plus précisément, nous dotons notre formulation d'un TreeCRF contraint par les segments innovant pour rendre les structures arborescentes sensibles aux segments et nous l'étendons ultérieurement au cas de deuxième ordre. Nous menons des expérimentations approfondies sur les benchmarks CoNLL05 et CoNLL12. Les résultats montrent que nos méthodes surpassent favorablement toutes les œuvres précédentes ignorant la syntaxe, atteignant un nouveau niveau d'avancée (state-of-the-art) tant dans le cadre end-to-end que dans celui avec prédicats dorés.