HyperAIHyperAI

Command Palette

Search for a command to run...

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Date

il y a un mois

Taille

11.96 MB

Licence

Apache 2.0

URL du document

arxiv.org

1. Introduction au tutoriel

Étoiles GitHub

JarvisArt-Preview est un modèle proxy intelligent de retouche photo, publié le 24 juin 2025 par des institutions telles que l'Université de Xiamen, l'Université des sciences et technologies de Hong Kong (Guangzhou) et l'Université Tsinghua. Sur le benchmark Artistic Retouch, ce modèle a obtenu un taux de victoire supérieur de 68,31 TP3T et 61,51 TP3T à celui d'Adobe Firefly Retouch, respectivement dans les catégories « Précision de la correspondance des instructions » et « Effet de retouche professionnel ». Il a également atteint des performances de pointe sur des benchmarks de retouche d'image traditionnels tels que la Style Transfer Evaluation Suite et le Human Preference Test. De plus, le modèle présente des fonctionnalités rarement observées dans les systèmes précédents, notamment : l’invocation de bout en bout de plus de 200 outils Lightroom pilotée par le langage naturel, la fusion intelligente d’éléments de styles variés (prenant en charge les styles mixtes tels que la peinture à l’huile et le croquis), le retour en arrière interprétable des étapes de retouche (générant des descriptions en langage naturel pour chaque étape) et l’optimisation itérative bidirectionnelle entre le texte et l’image (corrigant automatiquement les écarts d’instructions en fonction des résultats obtenus). Des articles de recherche connexes sont disponibles. JarvisArt : Libérer la créativité artistique humaine grâce à un agent de retouche photo intelligentIl a été inclus dans NeurIPS 2025.

Ce tutoriel utilise une seule carte graphique RTX 4090. L'anglais est la seule langue prise en charge.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. En raison de sa taille importante, veuillez patienter 2 à 3 minutes, puis actualiser la page. Vous devrez utiliser Lightroom pour visualiser les fichiers générés.

Description des paramètres

  • Paramètres de génération avancés :
    • Nombre maximal de nouveaux jetons : limite le nombre maximal de jetons que le modèle peut générer pour le texte relatif à la retouche d’images (instructions d’utilisation, descriptions d’étapes, etc.). Plus cette valeur est élevée, plus la description de la logique ou des étapes de retouche d’images générées sera détaillée, ce qui augmentera la longueur du contenu généré.
    • Température : contrôle le caractère aléatoire de la stratégie de retouche d’image. Plus la valeur est basse (proche de 0,1), plus les retouches sont stables et prévisibles ; plus la valeur est élevée (proche de 2), plus les retouches sont divergentes et variées, mais des ajustements inattendus peuvent apparaître.
    • Top-K : À chaque étape de génération, seul le contenu des K balises les plus probables est sélectionné. Plus la valeur est faible (par exemple, 10), plus les instructions de retouche générées sont ciblées et prudentes ; plus la valeur est élevée (par exemple, 100), plus la sélection d’instructions est diversifiée, permettant ainsi à un plus grand nombre d’idées de retouche potentielles d’être prises en compte.
    • Top-P (Échantillonnage du noyau) : contrôle la diversité des résultats à l’aide d’un seuil de probabilité cumulée. Plus la valeur est basse (par exemple, 0,5), plus la logique de traitement d’image est concentrée, car elle ne s’appuie que sur un petit nombre de marqueurs à forte probabilité. Plus la valeur est élevée (par exemple, 0,9), plus les marqueurs à faible probabilité mais créatifs sont pris en compte, ce qui accroît la diversité des résultats.
    • Conservateur / Créatif / Équilibré : Raccourcis pour changer rapidement de combinaison de paramètres
      • Le mode « conservateur » tend à générer des stratégies de retouche d'image stables et prévisibles.
      • Le mode « Créatif » met l'accent sur une créativité divergente et diversifiée en matière de retouche photo ;
      • Le mode « Équilibré » offre un juste milieu entre stabilité et créativité.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{jarvisart2025,
title={JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent}, 
      author={Yunlong Lin and Zixu Lin and Kunjie Lin and Jinbin Bai and Panwang Pan and Chenxin Li and Haoyu Chen and Zhongdao Wang and Xinghao Ding and Wenbo Li and Shuicheng Yan},
      year={2025},
      journal={arXiv preprint arXiv:2506.17612}
}

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp