HyperAIHyperAI

Command Palette

Search for a command to run...

Traduction cohérente augmentée par l'alignement pour l'extraction ouverte d'information multilingue

Mausam . Soumen Chakrabarti Shubham Mittal Muqeeth Mohammed Keshav Kolluru

Résumé

Les progrès réalisés dans le domaine de l’extraction ouverte d’information supervisée (OpenIE) ont principalement été limités à la langue anglaise en raison du manque de données d’entraînement disponibles pour les autres langues. Dans cet article, nous explorons des techniques permettant de convertir automatiquement des textes anglais afin d’entraîner des systèmes OpenIE dans d’autres langues. Nous introduisons un modèle de traduction contrainte enrichie par alignement, appelé AACTrans, qui traduit simultanément les phrases anglaises et leurs extraits correspondants de manière cohérente — sans modifier le vocabulaire ni altérer le sens sémantique, comme cela pourrait survenir avec des traductions indépendantes. À partir des données générées par AACTrans, nous entraînons un nouveau modèle génératif en deux étapes, que nous nommons Gen2OIE, qui produit, pour chaque phrase : 1) les relations au premier stade, puis 2) tous les extraits contenant ces relations au second stade. Gen2OIE améliore la couverture des relations grâce à une technique de transformation des données d’entraînement généralisable à plusieurs langues, contrairement aux modèles existants qui reposent sur une fonction de perte spécifique à l’anglais. Les évaluations menées sur cinq langues — espagnol, portugais, chinois, hindi et télougou — montrent que Gen2OIE, alimenté par les données AACTrans, dépasse les systèmes antérieurs avec une amélioration de 6 à 25 % en F1.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp