HyperAIHyperAI
il y a 11 jours

Amélioration du modèle de parsing RST neuronal grâce à des sous-arbres d'accord argent

{Masaaki Nagata, Manabu Okumura, Hidetaka Kamigaito, Tsutomu Hirao, Naoki Kobayashi}
Amélioration du modèle de parsing RST neuronal grâce à des sous-arbres d'accord argent
Résumé

La plupart des méthodes précédentes de parsing selon la Théorie de la Structure Rhétorique (RST) s'appuient sur l'apprentissage supervisé, telles que les réseaux neuronaux, qui nécessitent un corpus annoté de taille et de qualité suffisantes. Toutefois, le RST Discourse Treebank (RST-DT), le corpus de référence pour le parsing RST en anglais, est de taille réduite en raison du coût élevé de l'annotation des arbres RST. Le manque de données d'entraînement annotées de grande taille entraîne des performances médiocres, en particulier pour la tâche d'attribution de relations. Ainsi, nous proposons une méthode visant à améliorer les modèles de parsing RST neuronaux en exploitant des données « silver », c’est-à-dire des données annotées automatiquement. Nous générons ainsi de grandes quantités de données silver à partir d’un corpus non annoté en utilisant un parseur RST de pointe. Pour garantir une qualité élevée des données silver, nous extrayons des sous-arbres d’accord à partir des arbres RST construits par les parseurs RST. Ensuite, nous pré-entraînons un parseur RST neuronal à l’aide de ces données silver, puis nous le fine-tunons sur le RST-DT. Les résultats expérimentaux montrent que notre méthode atteint les meilleurs scores micro-F1 pour la Nuclearité et la Relation, respectivement de 75,0 et 63,2. En outre, nous observons une amélioration notable du score Relation, avec une progression de 3,0 points par rapport au parseur de l’état de l’art précédent.

Amélioration du modèle de parsing RST neuronal grâce à des sous-arbres d'accord argent | Articles de recherche récents | HyperAI