Traduction cohérente augmentée par l'alignement pour l'extraction ouverte d'information multilingue

Les progrès réalisés dans le domaine de l’extraction ouverte d’information supervisée (OpenIE) ont principalement été limités à la langue anglaise en raison du manque de données d’entraînement disponibles pour les autres langues. Dans cet article, nous explorons des techniques permettant de convertir automatiquement des textes anglais afin d’entraîner des systèmes OpenIE dans d’autres langues. Nous introduisons un modèle de traduction contrainte enrichie par alignement, appelé AACTrans, qui traduit simultanément les phrases anglaises et leurs extraits correspondants de manière cohérente — sans modifier le vocabulaire ni altérer le sens sémantique, comme cela pourrait survenir avec des traductions indépendantes. À partir des données générées par AACTrans, nous entraînons un nouveau modèle génératif en deux étapes, que nous nommons Gen2OIE, qui produit, pour chaque phrase : 1) les relations au premier stade, puis 2) tous les extraits contenant ces relations au second stade. Gen2OIE améliore la couverture des relations grâce à une technique de transformation des données d’entraînement généralisable à plusieurs langues, contrairement aux modèles existants qui reposent sur une fonction de perte spécifique à l’anglais. Les évaluations menées sur cinq langues — espagnol, portugais, chinois, hindi et télougou — montrent que Gen2OIE, alimenté par les données AACTrans, dépasse les systèmes antérieurs avec une amélioration de 6 à 25 % en F1.