il y a 8 jours

Du débruitage au raffinement : un cadre correctif pour les modèles de diffusion vision-langage

Yatai Ji Teng Wang Yuying Ge Zhiheng Liu Sidi Yang Ying Shan Ping Luo

Résumé

Les modèles de diffusion discrète émergent comme une voie prometteuse pour les tâches vision-langage, offrant une modélisation bidirectionnelle du contexte et une parallélisation théorique. Toutefois, leur application pratique est gravement entravée par un décalage entre apprentissage et inférence, entraînant des cascades d’erreurs catastrophiques : les erreurs initiales sur les tokens lors de la décodage parallèle contaminent le contexte de génération, déclenchant une réaction en chaîne d’erreurs cumulatives, qui se traduisent par des erreurs syntaxiques et des hallucinations sémantiques. Pour relever ce défi fondamental, nous reformulons le processus de génération, passant d’un débruitage passif à un raffinement actif. Nous introduisons ReDiff, un cadre de diffusion renforcé par le raffinement, qui apprend au modèle à identifier et à corriger ses propres erreurs. Notre approche repose sur un processus d’entraînement en deux étapes : tout d’abord, nous instillons une capacité fondamentale de révision en entraînant le modèle à corriger des erreurs synthétiques ; ensuite, nous mettons en œuvre une boucle d’autocorrection en ligne novatrice, où le modèle est explicitement formé à réviser ses propres brouillons défectueux en apprenant à partir de corrections d’un expert. Ce mécanisme d’apprentissage piloté par les erreurs confère au modèle la capacité essentielle de revenir sur et de raffiner ses propres sorties déjà générées, brisant efficacement la cascade d’erreurs. Des expériences étendues démontrent que ReDiff améliore de manière significative la cohérence et la fidélité factuelle du contenu généré, permettant une génération parallèle stable et efficace, nettement supérieure aux méthodes traditionnelles de débruitage. Nos codes et modèles sont disponibles à l’adresse suivante : https://rediff-hku.github.io/.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Du débruitage au raffinement : un cadre correctif pour les modèles de diffusion vision-langage

Yatai Ji Teng Wang Yuying Ge Zhiheng Liu Sidi Yang Ying Shan Ping Luo

Résumé

Construire l'IA avec l'IA

Hyper Newsletters