Transfert de style pour les textes : Réentraînement, Signalement des erreurs, Comparaison avec les réécritures

Ce document met en évidence que la méthodologie d'évaluation standard pour le transfert de style présente plusieurs problèmes importants. Premièrement, les métriques standard pour la précision du style et la préservation des sémantiques varient considérablement lors de différentes exécutions. Par conséquent, il est nécessaire de rapporter les marges d'erreur pour les résultats obtenus. Deuxièmement, à partir de certaines valeurs du score de l'évaluation bilingue expérimentale (BLEU) entre l'entrée et la sortie, ainsi que de la précision du transfert d'opinion, l'optimisation de ces deux métriques standards s'écarte de l'objectif intuitif de la tâche de transfert de style. Enfin, en raison de la nature même de cette tâche, il existe une dépendance spécifique entre ces deux métriques qui peut être facilement manipulée. Dans ce contexte, nous suggérons d'intégrer le BLEU entre l'entrée et les reformulations écrites par des humains dans les benchmarks. Nous proposons également trois nouvelles architectures qui surpassent l'état de l'art en termes de cette métrique.