HyperAIHyperAI
il y a 11 jours

Ayez votre texte et utilisez-le aussi ! Génération neurale end-to-end de texte à partir de données avec fidélité sémantique

Hamza Harkous, Isabel Groves, Amir Saffari
Ayez votre texte et utilisez-le aussi ! Génération neurale end-to-end de texte à partir de données avec fidélité sémantique
Résumé

La génération de texte à partir de données (D2T) neuronale end-to-end est récemment apparue comme une alternative aux architectures en pipeline. Toutefois, elle a rencontré des difficultés en matière de généralisation à de nouveaux domaines et de production de textes sémantiquement cohérents. Dans ce travail, nous présentons DataTuner, un système neuronal de génération end-to-end de texte à partir de données, qui fait des hypothèses minimales sur la représentation des données et le domaine cible. Nous adoptons une approche en deux étapes basée sur la génération et le reranking, combinant un modèle linguistique fine-tuné avec un classificateur de fidélité sémantique. Chacun de nos composants est appris de manière end-to-end, sans nécessiter de heuristiques spécifiques aux jeux de données, de délexicalisation d’entités ou de post-traitement. Nous démontrons que DataTuner atteint des résultats de pointe sur les métriques automatisées sur quatre grands jeux de données D2T (LDC2017T10, WebNLG, ViGGO et Cleaned E2E), avec une fluidité évaluée par des annotateurs humains qui atteint ou dépasse celle des textes de référence rédigés par des humains. Nous montrons également que le scoreur de fidélité sémantique basé sur le modèle dans DataTuner constitue un outil d’évaluation plus performant que les méthodes traditionnelles basées sur des heuristiques. Nos textes générés présentent une fidélité sémantique significativement supérieure à l’état de l’art sur l’ensemble des quatre jeux de données.

Ayez votre texte et utilisez-le aussi ! Génération neurale end-to-end de texte à partir de données avec fidélité sémantique | Articles de recherche récents | HyperAI