HyperAIHyperAI
vor einem Monat

T-LoRA: Anpassung von Diffusionsmodellen für einzelne Bilder ohne Überanpassung

Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev
T-LoRA: Anpassung von Diffusionsmodellen für einzelne Bilder ohne Überanpassung
Abstract

Während die Feinabstimmung von Diffusionsmodellen eine leistungsstarke Methode zur Anpassung vortrainierter Modelle für die Generierung spezifischer Objekte bietet, leidet sie häufig an Überanpassung (Overfitting), wenn die Anzahl der Trainingsbeispiele begrenzt ist. Dies beeinträchtigt sowohl die Generalisierungsfähigkeit als auch die Vielfalt der Ausgaben. Diese Arbeit widmet sich der herausfordernden und zugleich bedeutsamen Aufgabe, ein Diffusionsmodell mit nur einem Konzeptbild anzupassen, da die Anpassung an ein einzelnes Bild das größte praktische Potenzial hat. Wir stellen T-LoRA vor, einen zeitabhängigen Niedrigrang-Anpassungsrahmen (Timestep-Dependent Low-Rank Adaptation), der speziell für die Personalisierung von Diffusionsmodellen entwickelt wurde. In unserer Arbeit zeigen wir, dass höhere Diffusionsschritte stärker anfällig für Überanpassung sind als niedrigere, was eine zeitabhängige Feinabstimmungsstrategie erfordert. T-LoRA integriert zwei wesentliche Innovationen: (1) eine dynamische Feinabstimmungsstrategie, die rangbeschränkte Aktualisierungen je nach Diffusionsschritt anpasst, und (2) eine Gewichtsparametrisierungstechnik, die durch orthogonale Initialisierung die Unabhängigkeit zwischen den Adapterkomponenten gewährleistet. Umfangreiche Experimente belegen, dass T-LoRA und seine einzelnen Komponenten standardmäßige LoRA-Methoden und andere Techniken zur Personalisierung von Diffusionsmodellen übertrumpfen. Sie erreichen eine überlegene Balance zwischen Konzepttreue und Textausrichtung, was das Potenzial von T-LoRA in datenbegrenzten und ressourcenbeschränkten Szenarien hervorhebt. Der Quellcode ist unter https://github.com/ControlGenAI/T-LoRA verfügbar.