HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

JarvisArt: Befreiung der menschlichen künstlerischen Kreativität durch einen intelligenten Foto-Retoucheur-Agenten

JarvisArt: Befreiung der menschlichen künstlerischen Kreativität durch einen intelligenten Foto-Retoucheur-Agenten

Abstract

Fotobearbeitung ist ein wesentlicher Bestandteil der zeitgenössischen visuellen Erzählkunst und ermöglicht Nutzern, Ästhetik zu erfassen und Kreativität auszudrücken. Obwohl professionelle Werkzeuge wie Adobe Lightroom leistungsstarke Funktionen bieten, erfordern sie umfangreiches Fachwissen und manuelle Arbeit. Im Gegensatz dazu bieten bestehende künstliche Intelligenz-basierte Lösungen Automatisierung, leiden jedoch oft unter eingeschränkter Anpassbarkeit und schlechter Generalisierung, sodass sie vielfältige und personalisierte Bearbeitungsanforderungen nicht erfüllen können. Um diese Lücke zu schließen, stellen wir JarvisArt vor, einen von einem multimodalen großen Sprachmodell (MLLM) getriebenen Agenten, der die Benutzerabsicht versteht, das Denkprozess professioneller Künstler nachahmt und intelligent über mehr als 200 Bearbeitungswerkzeuge in Lightroom koordiniert. JarvisArt durchläuft einen zweistufigen Trainingsprozess: eine anfängliche Chain-of-Thought-supervisierte Feinabstimmung zur Etablierung grundlegender Denkfähigkeiten und Werkzeugbenutzungsfähigkeiten, gefolgt von einer Gruppenrelativen Politikoptimierung für die Bearbeitung (GRPO-R), um seine Entscheidungsfindung und Werkzeugkompetenz weiter zu verbessern. Wir schlagen außerdem das Agent-to-Lightroom-Protokoll vor, um eine nahtlose Integration mit Lightroom zu erleichtern. Zur Leistungsevaluation entwickeln wir MMArt-Bench, einen neuen Benchmark, der auf realen Benutzerbearbeitungen basiert. JarvisArt zeigt benutzerfreundliche Interaktionen, überlegene Generalisierungsfähigkeit und feingranulare Kontrolle sowohl bei globalen als auch lokalen Anpassungen, was einen neuen Weg für intelligente Fotobearbeitung eröffnet. Bemerkenswerterweise übertreffen die durchschnittlichen Pixel-Level-Metriken von JarvisArt auf MMArt-Bench die von GPT-4o um 60 % in Bezug auf Inhaltsauthenticität, wobei es vergleichbare Fähigkeiten im Verfolgen von Anweisungen beibehält. Projektseite: https://jarvisart.vercel.app/.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
JarvisArt: Befreiung der menschlichen künstlerischen Kreativität durch einen intelligenten Foto-Retoucheur-Agenten | Forschungsarbeiten | HyperAI