HyperAI超神经

1. Einführung in das Tutorial

Das KV-Edit-Projekt wurde am 25. Februar 2025 von der School of Artificial Intelligence der Tsinghua-Universität gestartet. Das Modell ist eine trainingsfreie Bildbearbeitungsmethode, die die Hintergrundkonsistenz zwischen dem Originalbild und dem bearbeiteten Bild strikt aufrechterhalten kann und bei verschiedenen Bearbeitungsaufgaben, einschließlich dem Hinzufügen, Entfernen und Ersetzen von Objekten, eine beeindruckende Leistung erzielt hat. Der Kern von KV-Edit besteht darin, den KV-Cache zum Speichern von Schlüssel-Wert-Paaren von Hintergrund-Tags zu verwenden. Während des Bildinversionsprozesses bleiben diese Schlüssel-Wert-Paare erhalten und während der Rauschunterdrückungsphase werden sie mit dem Vordergrundinhalt kombiniert, um neuen Inhalt zu generieren, der nahtlos in den Hintergrund integriert ist. Dieser Ansatz macht komplexe Mechanismen oder teure Schulungen überflüssig und gewährleistet gleichzeitig die Konsistenz des Hintergrunds und die allgemeine Bildqualität. Die relevanten Papierergebnisse sindKV-Edit: Trainingsfreie Bildbearbeitung zur präzisen Hintergrunderhaltung".

Dieses Tutorial verwendet Ressourcen für eine einzelne Karte A6000.

👉 Das Projekt bietet zwei Modellmodelle:

black-forest-labs/FLUX.1-dev: FLUX.1 [dev] ist ein gleichgerichteter Stream-Transformator mit 12 Milliarden Parametern, der in der Lage ist, Bilder aus Textbeschreibungen zu generieren.
black-forest-labs/FLUX.1-schnell: FLUX.1 [schnell] ist ein gleichgerichteter Flusstransformator mit 12 Milliarden Parametern, der in der Lage ist, Bilder aus Textbeschreibungen zu generieren.

Projektbeispiele

2. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

2. Nachdem Sie die Webseite aufgerufen haben, können Sie ein Gespräch mit dem Modell beginnen

Schritte:
1️⃣ Laden Sie das Bild hoch, das Sie bearbeiten möchten.
2️⃣ Geben Sie Ihr Quellstichwort ein und klicken Sie auf die Schaltfläche „Umkehren“, um die Bildumkehrung durchzuführen.
3️⃣ Verwenden Sie das Pinselwerkzeug, um über Ihren Maskenbereich zu malen.
4️⃣ Füllen Sie Ihren Zielhinweis aus und passen Sie die Hyperparameter an.
5️⃣ Klicken Sie auf die Schaltfläche „Bearbeiten“, um Ihr bearbeitetes Bild zu generieren.

❗️Wichtige Anwendungstipps:

Bilder dürfen nicht größer als 100 KB sein.
Wenn Sie die inversionsbasierte Version verwenden, müssen Sie jedes Bild nur einmal invertieren und können dann die Schritte 3 bis 5 für mehrere Bearbeitungsversuche wiederholen!
re_init bedeutet, neuen Inhalt durch Bildmischung mit Rauschen anstelle des invertierten Ergebnisses zu generieren.
Wenn die Option „attn_mask“ aktiviert ist, muss vor der Umkehrung eine Maske eingegeben werden.
Wenn die Maske groß ist und weniger Sprungschritte oder Re_init verwendet werden, kann es sein, dass der Inhalt des maskierten Bereichs nicht mit dem Hintergrund übereinstimmt. Sie können versuchen, attn_scale zu erhöhen.
„Invers“ bedeutet Umkehrung und „Bearbeiten“ bedeutet Bearbeiten, um den Hintergrund zu entfernen.
Mit „Anzahl der Sprungschritte“ wird die Anzahl der Sprungschritte gesteuert.
Inversionsführung Parameter der Inversionsführung.
Denoise-Anleitung: Anleitungsparameter zur Rauschunterdrückung.

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Dank an den Github-Benutzer zhangjunchang Für die Bereitstellung dieses Lernprogramms lauten die Projektreferenzinformationen wie folgt:

@article{zhu2025kv,
  title={KV-Edit: Training-Free Image Editing for Precise Background Preservation},
  author={Zhu, Tianrui and Zhang, Shiyi and Shao, Jiawei and Tang, Yansong},
  journal={arXiv preprint arXiv:2502.17363},
  year={2025}
}