Command Palette
Search for a command to run...
JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy
Datum
Größe
11.96 MB
Tags
Lizenz
Apache 2.0
GitHub
Paper-URL
1. Einführung in das Tutorial

JarvisArt-Preview ist ein intelligentes Proxy-Modell für die Fotoretusche, das am 24. Juni 2025 von Institutionen wie der Xiamen University, der Hong Kong University of Science and Technology (Guangzhou) und der Tsinghua University veröffentlicht wurde. Im Artistic Retouch Benchmark erzielte dieses Modell in den Kategorien „Genauigkeit der Befehlsübereinstimmung“ und „Professioneller Retuscheeffekt“ eine um 68,31 TP3T bzw. 61,51 TP3T höhere Erfolgsquote als Adobe Firefly Retouch. Auch in traditionellen Bildbearbeitungs-Benchmarks wie der Style Transfer Evaluation Suite und dem Human Preference Test erreichte es Bestwerte. Darüber hinaus weist das Modell Funktionen auf, die in bisherigen Systemen selten zu finden sind, darunter: die durchgängige Nutzung von Lightroom-Werkzeugen (über 200 Funktionen) mittels natürlicher Sprache, die intelligente Verschmelzung stilübergreifender Elemente (Unterstützung gemischter Stile wie Ölmalerei und Skizze), die nachvollziehbare Rückverfolgung von Retuscheschritten (Generierung von Beschreibungen in natürlicher Sprache für jeden Schritt) und die bidirektionale iterative Optimierung zwischen Text und Bild (automatische Korrektur von Abweichungen in den Anweisungen anhand der generierten Ergebnisse). Entsprechende Forschungsarbeiten sind verfügbar. JarvisArt: Befreiung menschlicher künstlerischer Kreativität durch einen intelligenten FotoretuscheurEs wurde in NeurIPS 2025 aufgenommen.
Dieses Tutorial verwendet eine einzelne RTX 4090-Grafikkarte. Englisch ist die einzige unterstützte Sprache.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte
Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Aufgrund der Größe des Modells warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie dann die Seite. Die generierten Dateien können Sie mit Lightroom anzeigen.

Parameterbeschreibung
- Parameter der erweiterten Generation:
- Maximale Anzahl neuer Tokens: Begrenzt die maximale Anzahl an Tokens, die das Modell für bildbearbeitungsbezogene Texte (z. B. Bedienungsanweisungen, Schrittbeschreibungen usw.) generieren kann. Je höher der Wert, desto detaillierter können die generierten Beschreibungen der Bildbearbeitungslogik oder -schritte sein, was zu einem längeren Ausgabetext führt.
- Temperatur: Steuert die Zufälligkeit der Bildretuschestrategie. Je niedriger der Wert (z. B. nahe 0,1), desto stabiler und vorhersehbarer sind die Retuschevorschläge; je höher der Wert (z. B. nahe 2), desto divergenter und vielfältiger sind die Retuschevorschläge, aber es können auch unerwartete Anpassungen auftreten.
- Top-K: In jedem Generierungsschritt wird nur der Inhalt aus den K Tags mit der höchsten Wahrscheinlichkeit ausgewählt. Je kleiner der Wert (z. B. 10), desto fokussierter und konservativer sind die generierten Retuscheanweisungen; je größer der Wert (z. B. 100), desto vielfältiger ist die Auswahl der Anweisungen und desto mehr potenzielle Retuscheideen können berücksichtigt werden.
- Top-P (Nucleus Sampling): Steuert die Ergebnisdiversität mithilfe eines kumulativen Wahrscheinlichkeitsschwellenwerts. Je niedriger der Wert (z. B. 0,5), desto konzentrierter ist die Bildbearbeitungslogik, da nur wenige Marker mit hoher Wahrscheinlichkeit berücksichtigt werden. Je höher der Wert (z. B. 0,9), desto mehr Marker mit niedriger Wahrscheinlichkeit, aber kreativem Potenzial, werden einbezogen, was zu einer größeren Ergebnisdiversität führt.
- Konservativ / Kreativ / Ausgewogen: Tastenkombinationen zum schnellen Umschalten von Parameterkombinationen
- Der „konservative“ Modus erzeugt tendenziell stabile und vorhersehbare Bildretuschestrategien.
- Der „Kreativmodus“ legt Wert auf vielfältige und abwechslungsreiche Kreativität bei der Fotobearbeitung;
- Der Modus „Ausgewogen“ schafft ein Gleichgewicht zwischen Stabilität und Kreativität.
Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@article{jarvisart2025,
title={JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent},
author={Yunlong Lin and Zixu Lin and Kunjie Lin and Jinbin Bai and Panwang Pan and Chenxin Li and Haoyu Chen and Zhongdao Wang and Xinghao Ding and Wenbo Li and Shuicheng Yan},
year={2025},
journal={arXiv preprint arXiv:2506.17612}
}
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.