HyperAIHyperAI
il y a 2 mois

Utilisation des données monolingues pour les représentations compositionnelles de mots interlingues

Hubert Soyer; Pontus Stenetorp; Akiko Aizawa
Utilisation des données monolingues pour les représentations compositionnelles de mots interlingues
Résumé

Dans cette étude, nous présentons une nouvelle architecture basée sur les réseaux de neurones pour l'induction de représentations compositionnelles de mots interlinguistiques. Contrairement aux méthodes proposées précédemment, notre méthode répond aux trois critères suivants : elle contraint les représentations au niveau des mots à être compositionnelles, elle est capable d'exploiter à la fois des données bilingues et monolingues, et elle est évolutive pour de grands vocabulaires et de grandes quantités de données. L'élément clé de notre approche est ce que nous appelons le critère d'inclusion monolingue, qui exploite l'observation selon laquelle les phrases sont plus étroitement liées sémantiquement à leurs sous-phrases qu'à d'autres phrases choisies au hasard. Nous évaluons notre méthode sur une tâche bien établie de classification de documents interlinguistiques et obtenons des résultats soit comparables, soit largement supérieurs aux méthodes précédentes de pointe. Plus précisément, notre méthode atteint un taux d'exactitude de 92,7 % et 84,4 % respectivement pour les sous-tâches anglais vers allemand et allemand vers anglais. Le premier progresse par rapport à l'état de l'art actuel avec une amélioration de 0,9 point en termes d'exactitude ; le second constitue une amélioration absolue par rapport à l'état antérieur de l'art avec une augmentation de 7,7 points en termes d'exactitude et une réduction des erreurs de 33,0 %.

Utilisation des données monolingues pour les représentations compositionnelles de mots interlingues | Articles de recherche récents | HyperAI