Command Palette
Search for a command to run...
SRPO: Die Bildgenerierung Verabschiedet Sich Von Der KI!
Date
Size
2.71 MB
License
Other
GitHub
Paper URL
1. Einführung in das Tutorial

SRPO ist ein Text-zu-Bild-Generierungsmodell, das im September 2025 vom Tencent Hunyuan Team, der Fakultät für Naturwissenschaften der Chinesischen Universität Hongkong, Shenzhen, und der Internationalen Graduiertenschule der Tsinghua-Universität Shenzhen gemeinsam entwickelt wurde. Durch die Gestaltung des Belohnungssignals als textbedingtes Signal ermöglicht es die Online-Anpassung der Belohnung und reduziert so die Abhängigkeit von der Offline-Feinabstimmung. SRPO verwendet die Direct-Align-Technologie, die das Originalbild aus jedem beliebigen Zeitschritt mithilfe vordefinierter Rauschprioritäten direkt wiederherstellt und so eine Überoptimierung in späteren Zeitschritten vermeidet. Experimente mit dem Modell FLUX.1.dev zeigen, dass SRPO den Realismus und die ästhetische Qualität der generierten Bilder aus menschlicher Sicht deutlich verbessert und eine extrem hohe Trainingseffizienz aufweist: Die Optimierung ist in nur 10 Minuten abgeschlossen. Zugehörige Forschungsarbeiten sind verfügbar. Direkte Ausrichtung der vollständigen Diffusionsbahn an feinkörnigen menschlichen Präferenzen .
Dieses Tutorial verwendet eine einzelne A6000-GPU als Rechenressource. Dieses Modell unterstützt derzeit nur englische Eingabeaufforderungen.
2. Effektanzeige

3. Bedienungsschritte
1. Starten Sie den Container
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

2. Anwendungsschritte

Spezifische Parameter:
- Eingabeaufforderung: Hier können Sie eine Textbeschreibung eingeben.
- Breite: Bildbreite.
- Höhe: Die Höhe des Bildes.
- Führungsskala: Führungsskala, die verwendet wird, um den Einfluss von Textaufforderungen auf das Endergebnis während der Bildgenerierung zu steuern.
- Inferenzschritte: Die Anzahl der Inferenzschritte steuert die Anzahl der Iterationen des Generierungsprozesses und wirkt sich auf die Generierungsqualität und die Berechnungszeit aus.
- Seed: Zufallszahlen-Seed, der zur Steuerung des Anfangswerts des Zufallsgenerierungsprozesses verwendet wird.
- Verwendeter Seed: Der verwendete Seed.
4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@misc{shen2025directlyaligningdiffusiontrajectory,
title={Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference},
author={Xiangwei Shen and Zhimin Li and Zhantao Yang and Shiyi Zhang and Yingfang Zhang and Donghao Li and Chunyu Wang and Qinglin Lu and Yansong Tang},
year={2025},
eprint={2509.06942},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2509.06942},
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.