BAGEL-7B-MoT est un modèle de base multimodal open source publié par l'équipe ByteDance Seed le 22 mai 2025. Il vise à unifier les tâches de compréhension et de génération de données multimodales telles que le texte, les images et les vidéos. BAGEL démontre des capacités complètes dans des tâches multimodales telles que la compréhension et la génération multimodales, le raisonnement et l'édition complexes, la modélisation du monde et la navigation. Ses principales fonctions sont la compréhension visuelle, la génération de texte en image, l'édition d'images, etc. Les résultats pertinents du document sontPropriétés émergentes dans la préformation multimodale unifiée".
Ce didacticiel utilise les ressources informatiques de la double carte A6000 et fournit la génération d'images, la génération d'images avec Think, l'édition d'images, l'édition d'images avec Think et la compréhension d'images pour les tests.
2. Affichage des effets
3. Étapes de l'opération
1. Démarrez le conteneur
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.
2. Exemples d'utilisation
2.1 Génération d'images
Paramètres spécifiques :
Invite : vous pouvez saisir du texte pour décrire le contenu de l’image ici, et le modèle générera une image basée sur ce texte.
Échelle de guidage du texte : contrôle dans quelle mesure l’invite affecte la sortie. Des valeurs plus élevées ont un impact plus important.
Étapes de génération : plus d'étapes équivaut à une meilleure qualité mais à une vitesse plus lente.
Timestep Shift : contrôle le processus de génération.
résultat
2.2 Génération d'images avec la pensée
Paramètres spécifiques :
Invite créative : vous pouvez saisir du texte pour décrire le contenu de l'image ici, et le modèle générera une image basée sur ce texte.
Jetons de réflexion max : contrôlez la profondeur du raisonnement.
Échelle de guidage du texte : contrôle dans quelle mesure l’invite affecte la sortie. Des valeurs plus élevées ont un impact plus important.
Étapes de génération : plus d'étapes équivaut à une meilleure qualité mais à une vitesse plus lente.
Timestep Shift : contrôle le processus de génération.
résultat
2.3 Retouche d'images
Paramètres spécifiques :
Télécharger l'image : téléchargez l'image qui doit être modifiée.
Modifier l'instruction : Modifier l'instruction.
Échelle de guidage du texte : contrôle dans quelle mesure l’invite affecte la sortie. Des valeurs plus élevées ont un impact plus important.
Étapes d'édition : plus d'étapes équivaut à une meilleure qualité mais à une vitesse plus lente.
Modifier la progression : Contrôler le processus de génération.
Fidélité de l'image : Une fidélité d'image plus élevée signifie qu'une plus grande partie de l'image d'origine est préservée.
résultat
2.4 Retouche d'images avec Think
Paramètres spécifiques :
Télécharger l'image : téléchargez l'image qui doit être modifiée.
Modifier l'instruction : Modifier l'instruction.
Profondeur du raisonnement : Profondeur du raisonnement.
Échelle de guidage du texte : contrôle dans quelle mesure l’invite affecte la sortie. Des valeurs plus élevées ont un impact plus important.
Étapes de traitement : plus d'étapes équivaut à une meilleure qualité mais à une vitesse plus lente.
Modifier la progression : Contrôler le processus de génération.
Préservation d'origine : Fidélité de l'image, plus élevée signifie que davantage d'original est préservé.
résultat
2.5 Compréhension de l'image
Paramètres spécifiques :
Télécharger l'image : téléchargez l'image qui doit être modifiée.
Votre question : Votre question.
résultat
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}