Command Palette
Search for a command to run...
Du débruitage au raffinement : un cadre correctif pour les modèles de diffusion vision-langage
Yatai Ji Teng Wang Yuying Ge Zhiheng Liu Sidi Yang Ying Shan Ping Luo

Résumé
Les modèles de diffusion discrète émergent comme une voie prometteuse pour les tâches vision-langage, offrant une modélisation bidirectionnelle du contexte et une parallélisation théorique. Toutefois, leur application pratique est gravement entravée par un décalage entre apprentissage et inférence, entraînant des cascades d’erreurs catastrophiques : les erreurs initiales sur les tokens lors de la décodage parallèle contaminent le contexte de génération, déclenchant une réaction en chaîne d’erreurs cumulatives, qui se traduisent par des erreurs syntaxiques et des hallucinations sémantiques. Pour relever ce défi fondamental, nous reformulons le processus de génération, passant d’un débruitage passif à un raffinement actif. Nous introduisons ReDiff, un cadre de diffusion renforcé par le raffinement, qui apprend au modèle à identifier et à corriger ses propres erreurs. Notre approche repose sur un processus d’entraînement en deux étapes : tout d’abord, nous instillons une capacité fondamentale de révision en entraînant le modèle à corriger des erreurs synthétiques ; ensuite, nous mettons en œuvre une boucle d’autocorrection en ligne novatrice, où le modèle est explicitement formé à réviser ses propres brouillons défectueux en apprenant à partir de corrections d’un expert. Ce mécanisme d’apprentissage piloté par les erreurs confère au modèle la capacité essentielle de revenir sur et de raffiner ses propres sorties déjà générées, brisant efficacement la cascade d’erreurs. Des expériences étendues démontrent que ReDiff améliore de manière significative la cohérence et la fidélité factuelle du contenu généré, permettant une génération parallèle stable et efficace, nettement supérieure aux méthodes traditionnelles de débruitage. Nos codes et modèles sont disponibles à l’adresse suivante : https://rediff-hku.github.io/.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.