HyperAIHyperAI

Command Palette

Search for a command to run...

XF2T : Génération de texte à partir de faits multilingue pour les langues à faibles ressources

Shivprasad Sagare Tushar Abhishek Bhavyajeet Singh Anubhav Sharma Manish Gupta Vasudeva Varma

Résumé

De nombreuses scénarios commerciaux nécessitent la génération automatisée de textes descriptifs compréhensibles par les humains à partir de données structurées. En conséquence, des systèmes de génération de texte à partir de faits (fact-to-text, F2T) ont été développés pour diverses tâches en aval, telles que la rédaction de rapports de football, de rapports météorologiques et financiers, de rapports médicaux, ou encore de biographies personnelles. Cependant, les travaux antérieurs sur la génération F2T se sont principalement concentrés sur la langue anglaise, en raison de la grande disponibilité de jeux de données pertinents. Seulement récemment, le problème de génération cross-lingue F2T (XF2T) a été proposé pour permettre la génération de texte dans plusieurs langues, accompagné d’un jeu de données, XALIGN, couvrant huit langues. Toutefois, aucune étude rigoureuse n’a encore été menée sur le problème réel de XF2T. Nous étendons le jeu de données XALIGN en y ajoutant des données annotées pour quatre nouvelles langues : le pénjabi, le malayalam, l’assamais et l’oriya. Nous menons une étude approfondie en utilisant des modèles populaires de génération de texte basés sur l’architecture Transformer sur notre jeu de données multilingue étendu, que nous appelons XALIGNV2. Par ailleurs, nous examinons les performances de différentes stratégies de génération de texte : diverses variantes de pré-entraînement, des embeddings sensibles aux faits et une encodage d’entrée sensible à la structure. Nos expériences étendues montrent qu’un modèle multilingue mT5 utilisant des embeddings sensibles aux faits combinés à une encodage d’entrée sensible à la structure obtient les meilleurs résultats en moyenne sur les douze langues. Nous mettons à disposition publiquement notre code, notre jeu de données et nos modèles, dans l’espoir que cela contribuera à faire progresser les recherches futures dans ce domaine crucial.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp