HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 5 jours

EditThinker : Déverrouiller le raisonnement itératif pour tout éditeur d’image

EditThinker : Déverrouiller le raisonnement itératif pour tout éditeur d’image

Résumé

L'édition d'images basée sur des instructions s'est imposée comme un domaine de recherche majeur, et grâce aux modèles fondamentaux de génération d'images, elle a atteint une qualité esthétique élevée, ce qui fait que la capacité à suivre les instructions devient le défi principal. Les approches existantes améliorent l'adhésion aux instructions par apprentissage supervisé ou par renforcement, mais les taux de réussite en une seule interaction restent limités en raison de la stochasticité intrinsèque et du manque de réflexion. Dans ce travail, nous proposons un cadre d'édition réfléchie qui « pense » tout en éditant, en simulant la boucle cognitive humaine par une exécution itérative d'un cycle Penser-tout-en-écrivant : évaluer les résultats et affiner les instructions, puis répéter la génération jusqu'à obtention d'un résultat satisfaisant. Plus précisément, nous entraînons un seul modèle de langage multimodal (MLLM), nommé EditThinker, pour agir comme moteur de raisonnement de ce cadre, qui produit conjointement un score d'évaluation, un processus de raisonnement et des instructions affinées. Nous utilisons l'apprentissage par renforcement pour aligner la réflexion d'EditThinker sur son processus d'édition, permettant ainsi d'obtenir des améliorations d'instructions plus ciblées. Des expériences étendues sur quatre benchmarks démontrent que notre approche améliore de manière significative, et de façon marquée, la capacité de suivi d'instructions de tout modèle d'édition d'images. Nous mettrons à disposition notre cadre de construction de données, nos jeux de données et nos modèles afin de soutenir la communauté.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp