HyperAIHyperAI
il y a 9 jours

Atténuation de la perte d'information séquentielle grâce au chevauchement des données et aux tailles de lot optimales

Noémien Kocher, Christian Scuito, Lorenzo Tarantino, Alexandros Lazaridis, Andreas Fischer, Claudiu Musat
Atténuation de la perte d'information séquentielle grâce au chevauchement des données et aux tailles de lot optimales
Résumé

Dans les tâches de modélisation séquentielle, l'ordre des tokens est essentiel, mais cette information peut être partiellement perdue en raison de la discrétisation de la séquence en points de données. Dans cet article, nous étudions l'asymétrie entre la manière dont certains paires de tokens sont incluses dans les points de données, tandis que d'autres ne le sont pas. Nous appelons ce phénomène un déséquilibre d’ordre de tokens (TOI, Token Order Imbalance), et nous établissons un lien entre la perte partielle d’information séquentielle et la dégradation des performances globales du système, tant dans les tâches de traitement du texte que dans celles de traitement de la parole. Nous proposons ensuite un mécanisme permettant de tirer parti de l’information complète sur l’ordre des tokens — que nous désignons par « TOI atténué » — en surajoutant itérativement la composition des tokens dans les points de données. Pour les réseaux récurrents, nous utilisons des tailles de batch correspondant à des nombres premiers afin d’éviter les redondances lors de la construction des batchs à partir de données chevauchantes. La méthode proposée atteint des performances de pointe dans à la fois les tâches liées au texte et celles liées à la parole.