Ensemble De Données d'édition d'images Multimodales MultiEdit
Date
URL de publication
URL de l'article
Licence
Apache 2.0
MultiEdit est un ensemble de données d'édition d'images complet et à grande échelle basé sur des instructions, publié en 2025 par inclusionAI en collaboration avec l'Université de Nouvelle-Galles du Sud et l'Université de Hong Kong.MultiEdit : Améliorer l'édition d'images basée sur les instructions pour des tâches diverses et complexes", qui vise à améliorer les capacités du modèle dans des tâches d'édition d'images complexes et diverses.
Cet ensemble de données contient environ 107 000 échantillons, couvrant six tâches d'édition principales et 56 sous-catégories de types d'édition, dont l'édition de références d'objets, l'édition de références de personnes, l'ajustement de texte et d'éléments d'interface, la transformation de perspective et le transfert de style. Les données sont issues d'un processus de génération piloté par de grands modèles multimodaux (tels que GPT-4o et GPT-Image-1). Cette approche combine la construction d'instructions, la génération d'images et le contrôle qualité afin de garantir la pertinence et la cohérence des échantillons d'édition. La structure des données est constituée d'un triplet : « image source - instruction d'édition - résultat d'édition », ainsi que d'informations sur la catégorie d'édition et la source.
Composition des données
- Édition de référence d'objet
- Utilisé pour modifier les propriétés d'objets spécifiques, notamment la couleur, la forme, l'échelle et la position.
- Il contient 4 types d'édition et un total de 10 051 échantillons (9 851 dans l'ensemble d'apprentissage et 200 dans l'ensemble de test).
- Modification des références personnelles
- Modifiez les personnes sur l'image, y compris la posture, les vêtements, la coiffure, la couleur de la peau et la forme du corps.
- Il contient 5 types de modifications, avec un total de 7 141 échantillons (6 891 dans l'ensemble d'entraînement et 250 dans l'ensemble de test).
- Édition de texte
- Modifiez les éléments de texte dans les images, tels que le style de police, le contenu du texte, le support d'affichage et la couleur.
- Il contient 4 types de modifications, avec un total de 4 060 échantillons (3 860 dans l'ensemble d'apprentissage et 200 dans l'ensemble de test).
- Édition de l'interface graphique
- Utilisé pour modifier les propriétés des icônes et afficher les supports des éléments de l'interface utilisateur graphique (GUI), couvrant les interfaces iOS, Android et Web.
- Il contient 2 types de modifications, avec un total de 2 880 échantillons (2 780 dans l'ensemble d'entraînement et 100 dans l'ensemble de test).
- Modification de la vue
- Générez différentes perspectives de sujets d’image, y compris des personnes, des points de repère et des objets généraux.
- Il contient 3 types de modifications, avec un total de 28 205 échantillons (28 055 dans l'ensemble d'entraînement et 150 dans l'ensemble de test).
- Transfert de style
- Convertissez des images en 38 styles artistiques, des formes d'art classiques à l'esthétique numérique moderne.
- Il contient 38 types d'édition et un total de 56 297 échantillons (55 097 dans l'ensemble d'apprentissage et 200 dans l'ensemble de test).