HyperAIHyperAI
il y a 2 mois

Extraction de corpus parallèles basée sur les marges avec des plongements de phrases multilingues

Mikel Artetxe; Holger Schwenk
Extraction de corpus parallèles basée sur les marges avec des plongements de phrases multilingues
Résumé

La traduction automatique est très sensible à la taille et à la qualité des données d'entraînement, ce qui a suscité un intérêt croissant pour la collecte et le filtrage de grands corpus parallèles. Dans cet article, nous proposons une nouvelle méthode pour cette tâche basée sur les plongements de phrases multilingues. Contrairement aux approches précédentes, qui reposent sur la recherche des plus proches voisins avec un seuil rigide basé sur la similarité cosinus, notre méthode proposée prend en compte les incohérences d'échelle de cette mesure, en considérant l'écart entre un couple de phrases donné et ses candidats les plus proches au lieu de cela. Nos expériences montrent des améliorations importantes par rapport aux méthodes existantes. Nous surpassons les meilleurs résultats publiés sur la tâche d'extraction BUCC (Bilingual Unsupervised Corpus Clustering) et la tâche de reconstruction des Nations Unies (UN) de plus de 10 points F1 et 30 points de précision, respectivement. En filtrant le corpus ParaCrawl anglais-allemand avec notre approche, nous obtenons 31,2 points BLEU sur newstest2014, une amélioration d'un point supplémentaire par rapport à la meilleure version officielle filtrée.