HyperAIHyperAI
il y a 3 mois

CipherDAug : Une augmentation de données basée sur le chiffrement pour la traduction automatique par réseaux neuronaux

Nishant Kambhatla, Logan Born, Anoop Sarkar
CipherDAug : Une augmentation de données basée sur le chiffrement pour la traduction automatique par réseaux neuronaux
Résumé

Nous proposons une nouvelle technique d’augmentation de données pour la traduction automatique neurale fondée sur des cryptogrammes ROT-$k$. Le chiffre ROT-$k$ est un chiffre de substitution simple qui remplace une lettre du texte clair par la $k$-ième lettre qui la suit dans l’alphabet. Nous générons d’abord plusieurs cryptogrammes ROT-$k$ en utilisant différentes valeurs de $k$ sur le texte clair, qui correspond au côté source des données parallèles. Nous exploitons ensuite ces données chiffrées conjointement avec les données parallèles originales via un apprentissage multi-source afin d’améliorer la traduction automatique neurale. Notre méthode, nommée CipherDAug, repose sur une procédure d’entraînement inspirée de la co-régularisation, ne nécessite aucune source externe de données en plus des données d’entraînement initiales, et utilise un modèle Transformer standard pour surpasser significativement des techniques d’augmentation de données puissantes sur plusieurs jeux de données. Cette approche s’intègre aisément aux méthodes existantes d’augmentation de données et obtient des résultats particulièrement prometteurs dans des contextes à faible ressource.

CipherDAug : Une augmentation de données basée sur le chiffrement pour la traduction automatique par réseaux neuronaux | Articles de recherche | HyperAI