vor 8 Tagen

Von der Rauschunterdrückung zur Verfeinerung: Ein korrigierender Rahmen für visuell-sprachliche Diffusionsmodelle

Yatai Ji Teng Wang Yuying Ge Zhiheng Liu Sidi Yang Ying Shan Ping Luo

Abstract

Diskrete Diffusionsmodelle sind zu einer vielversprechenden Richtung für Aufgaben im Bereich Vision-Sprache geworden, da sie eine bidirektionale Kontextmodellierung und eine theoretische Parallelisierung ermöglichen. Ihre praktische Anwendung wird jedoch erheblich durch einen Trainings-Inferenz-Discrepanz behindert, der katastrophale Fehlerkaskaden verursacht: bereits im Verlauf der parallelen Dekodierung auftretende Fehler bei den ersten Token verunreinigen den Generationskontext und lösen eine Kettenreaktion von sich akkumulierenden Fehlern aus, die zu syntaktischen Fehlern und semantischen Halluzinationen führen. Um diese grundlegende Herausforderung zu bewältigen, reformulieren wir den Generierungsprozess von einer passiven Rauschunterdrückung hin zu einer aktiven Verbesserung. Wir stellen ReDiff vor, einen verbesserten Diffusionsrahmen, der das Modell lehrt, eigene Fehler zu erkennen und zu korrigieren. Unser Ansatz basiert auf einem zweistufigen Trainingsprozess: Zunächst vermitteln wir dem Modell eine grundlegende Korrekturfähigkeit, indem wir es trainieren, synthetische Fehler zu korrigieren; anschließend implementieren wir eine neuartige Online-Selbstkorrekturschleife, bei der das Modell explizit darauf trainiert wird, eigene fehlerhafte Entwürfe durch Lernen aus Korrekturen durch einen Experte zu verbessern. Dieser fehlergetriebene Lernansatz verleiht dem Modell die entscheidende Fähigkeit, bereits generierte Ausgaben erneut zu überprüfen und zu verfeinern, wodurch die Fehlerkaskade effektiv unterbrochen wird. Ausführliche Experimente zeigen, dass ReDiff die Kohärenz und faktische Genauigkeit der generierten Inhalte erheblich verbessert und eine stabile und effiziente parallele Generierung ermöglicht, die den herkömmlichen Rauschunterdrückungsmethoden deutlich überlegen ist. Unsere Quellcode-Dateien und Modelle sind unter https://rediff-hku.github.io/ verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Von der Rauschunterdrückung zur Verfeinerung: Ein korrigierender Rahmen für visuell-sprachliche Diffusionsmodelle

Yatai Ji Teng Wang Yuying Ge Zhiheng Liu Sidi Yang Ying Shan Ping Luo

Abstract

KI mit KI entwickeln

Hyper Newsletters