Step1X-Edit: Bildbearbeitungstool
Projektübersicht

Dieses Tutorial verwendet eine einzelne RTX A6000-Karte als Ressource.
Step1X-Edit ist ein hochmodernes Bildbearbeitungsmodell, das vom StepFun-Team am 25. April 2025 veröffentlicht wurde und eine vergleichbare Leistung wie Closed-Source-Modelle wie GPT-4o und Gemini2 Flash bieten soll. Step1X-Edit verwendet multimodales LLM zur Verarbeitung von Referenzbildern und Benutzerbearbeitungsanweisungen, extrahiert latente Einbettungen und integriert diese mit dem diffusen Bilddecoder, um das Zielbild zu erhalten. Das Modell verfügt über ein Gesamtparametervolumen von 19 Milliarden (7 Milliarden MLLM + 12 Milliarden DiT) und bietet drei Hauptfunktionen: präzise semantische Analyse, Aufrechterhaltung der Identitätskonsistenz und hochpräzise regionale Ebenensteuerung. Es unterstützt elf Arten hochfrequenter Bildbearbeitungsaufgaben wie Textersetzung, Stilübertragung, Materialtransformation, Zeichenretusche usw.
Step1X-Edit ist das erste Open-Source-System, das eine tiefe Fusion von MLLM und DiT erreicht, was die Bearbeitungsgenauigkeit und Bildtreue deutlich verbessert. Im neuesten Bildbearbeitungs-Benchmark GEdit-Bench liegt Step1X-Edit hinsichtlich semantischer Konsistenz, Bildqualität und Gesamtbewertung vor bestehenden Open-Source-Modellen und ist mit GPT-4o und Gemini 2.0 Flash vergleichbar.Step1X-Edit: Ein praktisches Framework für die allgemeine Bildbearbeitung".
Step1X-Edit verfügt über die folgenden Kernfunktionen für Aufgaben der Bildbearbeitung in natürlicher Sprache:
- Semantische Präzisionsanalyse: Unterstützt komplexe Kombinationsanweisungen in natürlicher Sprache. Die Anweisungen benötigen keine Vorlagen und können flexibel mit mehrstufigen Bearbeitungsanforderungen umgehen. Sie unterstützt außerdem die Erkennung, Ersetzung und Rekonstruktion von Text in Bildern.
- Erhaltung der Identitätskonsistenz: Nach der Bearbeitung können Gesicht, Körperhaltung und Identitätsmerkmale stabil beibehalten werden, was für Szenarien mit hoher Konsistenz wie virtuelle Personen, E-Commerce-Modelle und soziale Bilder geeignet ist.
- Hochpräzise Steuerung auf Bereichsebene: unterstützt die gerichtete Bearbeitung von Text, Materialien, Farben usw. in bestimmten Bereichen, behält einen einheitlichen Bildstil bei und bietet verfeinerte Steuerungsmöglichkeiten.
Projektbeispiele

Schritte ausführen
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

2. Sobald Sie die Webseite betreten, können Sie mit dem Modell interagieren

Austausch und Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen
Dank an den Github-Benutzer zhangjunchang Für die Bereitstellung dieses Lernprogramms lauten die Projektreferenzinformationen wie folgt:
@article{liu2025step1x-edit,
title={Step1X-Edit: A Practical Framework for General Image Editing},
author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
journal={arXiv preprint arXiv:2504.17761},
year={2025}
}