Command Palette
Search for a command to run...
JarvisArt: Befreiung der menschlichen künstlerischen Kreativität durch einen intelligenten Foto-Retoucheur-Agenten

Abstract
Fotobearbeitung ist ein wesentlicher Bestandteil der zeitgenössischen visuellen Erzählkunst und ermöglicht Nutzern, Ästhetik zu erfassen und Kreativität auszudrücken. Obwohl professionelle Werkzeuge wie Adobe Lightroom leistungsstarke Funktionen bieten, erfordern sie umfangreiches Fachwissen und manuelle Arbeit. Im Gegensatz dazu bieten bestehende künstliche Intelligenz-basierte Lösungen Automatisierung, leiden jedoch oft unter eingeschränkter Anpassbarkeit und schlechter Generalisierung, sodass sie vielfältige und personalisierte Bearbeitungsanforderungen nicht erfüllen können. Um diese Lücke zu schließen, stellen wir JarvisArt vor, einen von einem multimodalen großen Sprachmodell (MLLM) getriebenen Agenten, der die Benutzerabsicht versteht, das Denkprozess professioneller Künstler nachahmt und intelligent über mehr als 200 Bearbeitungswerkzeuge in Lightroom koordiniert. JarvisArt durchläuft einen zweistufigen Trainingsprozess: eine anfängliche Chain-of-Thought-supervisierte Feinabstimmung zur Etablierung grundlegender Denkfähigkeiten und Werkzeugbenutzungsfähigkeiten, gefolgt von einer Gruppenrelativen Politikoptimierung für die Bearbeitung (GRPO-R), um seine Entscheidungsfindung und Werkzeugkompetenz weiter zu verbessern. Wir schlagen außerdem das Agent-to-Lightroom-Protokoll vor, um eine nahtlose Integration mit Lightroom zu erleichtern. Zur Leistungsevaluation entwickeln wir MMArt-Bench, einen neuen Benchmark, der auf realen Benutzerbearbeitungen basiert. JarvisArt zeigt benutzerfreundliche Interaktionen, überlegene Generalisierungsfähigkeit und feingranulare Kontrolle sowohl bei globalen als auch lokalen Anpassungen, was einen neuen Weg für intelligente Fotobearbeitung eröffnet. Bemerkenswerterweise übertreffen die durchschnittlichen Pixel-Level-Metriken von JarvisArt auf MMArt-Bench die von GPT-4o um 60 % in Bezug auf Inhaltsauthenticität, wobei es vergleichbare Fähigkeiten im Verfolgen von Anweisungen beibehält. Projektseite: https://jarvisart.vercel.app/.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.