Command Palette
Search for a command to run...
Seedream 4.0 : Vers une génération d’images multimodales de nouvelle génération

Résumé
Nous présentons Seedream 4.0, un système multimodal d’image générative efficace et hautement performant, qui intègre dans un même cadre la synthèse texte-à-image (T2I), l’édition d’image et la composition multi-images. Nous avons conçu un transformateur à diffusion hautement efficace, associé à un VAE puissant, capable de réduire de manière significative le nombre de tokens d’image. Cette approche permet une formation efficace de notre modèle, tout en permettant la génération rapide d’images haute résolution natives (par exemple, 1K à 4K). Seedream 4.0 est pré-entraîné sur des milliards de paires texte-image couvrant une diversité de taxonomies et de concepts centrés sur le savoir. Une collecte de données exhaustive à travers des centaines de scénarios verticaux, combinée à des stratégies d’optimisation, garantit un entraînement stable et à grande échelle, avec une forte généralisation. En intégrant un modèle VLM soigneusement fine-tuné, nous réalisons une phase de post-entraînement multimodal permettant d’entraîner simultanément les tâches T2I et d’édition d’image. Pour accélérer les inférences, nous avons implémenté une distillation adversaire, un alignement de distribution, une quantification ainsi que le décodage spéculatif. Ce système atteint un temps d’inférence pouvant aller jusqu’à 1,8 seconde pour générer une image de 2K (sans modèle LLM/VLM utilisé comme modèle PE). Des évaluations complètes démontrent que Seedream 4.0 atteint des résultats de pointe tant pour la tâche T2I que pour l’édition d’image multimodale. En particulier, il fait preuve de capacités multimodales exceptionnelles dans des tâches complexes, notamment une édition d’image précise et une raisonnement in-context, tout en permettant la référence à plusieurs images et la génération de plusieurs images en sortie. Cette évolution dépasse les systèmes T2I traditionnels pour en faire un outil créatif plus interactif et multidimensionnel, repoussant ainsi les limites de l’intelligence artificielle générative tant pour la créativité que pour les applications professionnelles. Seedream 4.0 est désormais accessible à l’adresse suivante : https://www.volcengine.com/experience/ark?launch=seedream.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.