Command Palette
Search for a command to run...
TAG: Tangential Amplifying Guidance für hallucinationsresistente Diffusions-Sampling
Hyunmin Cho Donghoon Ahn Susung Hong Jee Eun Kim Seungryong Kim Kyong Hwan Jin

Abstract
Kürzlich erreichten Diffusionsmodelle durch ihre state-of-the-art-Leistung in der Bildgenerierung neue Höhen, leiden jedoch häufig unter semantischen Inkonsistenzen oder Halluzinationen. Obwohl verschiedene Methoden zur Leitungssteuerung während der Inferenz die Generierung verbessern können, arbeiten sie meist indirekt und setzen auf externe Signale oder architektonische Modifikationen, was zusätzlichen Rechenaufwand verursacht. In diesem Artikel stellen wir Tangential Amplifying Guidance (TAG) vor, eine effizientere und direktere Leitungsstrategie, die ausschließlich auf Trajektoriendaten basiert und keine Änderungen am zugrundeliegenden Diffusionsmodell erfordert. TAG nutzt ein Zwischenbild als Projektionsbasis und verstärkt die tangentialen Komponenten der geschätzten Gradienten bezüglich dieser Basis, um die Sampling-Trajektorie zu korrigieren. Wir formalisieren diesen Leitungsprozess mittels einer ersten Ordnung Taylor-Entwicklung, wodurch sich zeigt, dass die Verstärkung der tangentialen Komponente den Zustand in Regionen höherer Wahrscheinlichkeit lenkt, was Inkonsistenzen reduziert und die Qualität der generierten Bilder verbessert. TAG ist ein plug-and-play-, architekturunabhängiges Modul, das die Genauigkeit der Diffusions-Sampling-Prozesse mit minimalen zusätzlichen Rechenkosten erhöht und damit eine neue Perspektive auf die Steuerung von Diffusionsmodellen eröffnet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.