Le temps est une caractéristique : exploitation des dynamiques temporelles dans les modèles linguistiques à diffusion

La diffusion des grands modèles linguistiques (dLLMs) génère du texte par un processus itératif de débruitage, mais les stratégies de décodage actuelles rejettent les prédictions intermédiaires riches au profit uniquement du résultat final. Dans ce travail, nous mettons en évidence un phénomène critique, l’oscillation temporelle, selon lequel les réponses correctes apparaissent souvent au cours des étapes intermédiaires, mais sont ultérieurement écrasées lors des étapes ultérieures de débruitage. Pour résoudre ce problème, nous proposons deux méthodes complémentaires exploitant la cohérence temporelle : 1) le vote de cohérence auto-temporelle (Temporal Self-Consistency Voting), une stratégie de décodage au moment de l’évaluation, sans entraînement supplémentaire, qui agrège les prédictions issues des différentes étapes de débruitage afin de sélectionner la sortie la plus cohérente ; et 2) une méthode de post-entraînement appelée renforcement de cohérence temporelle, qui utilise l’entropie sémantique temporelle (TSE), une mesure de stabilité sémantique au sein des prédictions intermédiaires, comme signal de récompense afin de favoriser des générations stables. Les résultats expérimentaux sur plusieurs benchmarks démontrent l’efficacité de notre approche. En utilisant uniquement la récompense négative basée sur la TSE, nous observons une amélioration moyenne remarquable de 24,7 % sur le jeu de données Countdown par rapport à un dLLM existant. En combinant cette récompense avec une récompense d’exactitude, nous obtenons des gains absolus respectifs de 2,0 % sur GSM8K, 4,3 % sur MATH500, 6,6 % sur SVAMP et 25,3 % sur Countdown. Nos résultats soulignent le potentiel inexploré des dynamiques temporelles dans les dLLMs et offrent deux outils simples mais efficaces pour les exploiter.