HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ovis-Image : Modèle De Génération d'images De Haute Qualité

1. Introduction au tutoriel

Construire

Ovis-Image est un système de génération d'images à partir de texte (T2I) de haute qualité, basé sur le modèle haute fidélité Ovis-Image-7B, publié par l'équipe AIDC-AI en novembre 2025. Ce système utilise un encodeur Transformer multi-échelle et une architecture générative autorégressive, offrant des performances exceptionnelles en matière de génération d'images haute résolution, de représentation des détails et d'adaptation à différents styles. Grâce à un échantillonnage du bruit optimisé et à des techniques de guidage sans classificateur, Ovis-Image génère des images naturelles, cohérentes et détaillées à une résolution de 1024 × 1024 pixels, compatibles avec divers styles tels que le réalisme, le cyberpunk, l'anime et la science-fiction. Des articles de recherche associés sont disponibles à l'adresse suivante : [lien vers l'article pertinent].Ovis-Image 7B : Génération d’images à partir de texte avec un transformateur multi-échelle".

Fonctionnalités principales :

  • Génération native haute résolution : Prend en charge la génération native jusqu’à une résolution de 1024×1024, permettant d’obtenir des résultats clairs et détaillés sans avoir besoin de modèles de super-résolution supplémentaires.
  • Modélisation sémantique multi-échelle : basée sur une structure d’encodage Transformer multi-échelle, elle prend en compte à la fois la composition globale et les détails de texture locaux.
  • Reproduction détaillée de haute qualité : performances stables en termes de personnages, de matériaux, d’éclairage et de complexité environnementale.
  • Grande polyvalence à travers de multiples styles : prise en charge native de divers styles grand public tels que le réalisme, le cyberpunk, l’anime, la science-fiction et l’illustration.
  • Capacité de génération hautement contrôlable : une génération fine et contrôlable est obtenue grâce à l’échelle de guidage, aux étapes d’échantillonnage, à la résolution et aux germes aléatoires.
  • Équilibre entre précision et efficacité de l'inférence : prend en charge l'inférence BF16 à faible consommation de mémoire, tout en utilisant le décodage FP32 pour améliorer la précision de l'image finale.

Ce tutoriel utilise Grado pour déployer le modèle de base Ovis-Image 7B, avec des ressources de calcul « RTX_5090 », qui peut atteindre une génération de texte haute résolution de 1024×1024 sans aucun goulot d'étranglement de mémoire vidéo/mémoire.

2. Affichage des effets

L'Ovis-Image 7B offre des performances exceptionnelles pour les tâches principales :

  • Génération de scènes complexes : Générer des images naturelles et logiques à partir d’instructions textuelles détaillées.
  • Prise en charge de plusieurs styles : Peut générer différents styles visuels tels que réaliste, cyberpunk, anime et science-fiction.
  • Détails haute résolution : textures riches, ombres et éclairage.
  • Contrôlabilité : L'effet généré peut être ajusté en modifiant le nombre d'étapes, l'échelle de guidage et la résolution.

3. Étapes de l'opération

1. Démarrez le conteneur

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Pour commencer

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes, puis actualiser la page.

Description des paramètres

  • Hauteur/largeur de l'image: Générez la hauteur et la largeur de l'image, avec un pas de 32.
  • Nombre d'étapes d'inférencePlus le nombre d'étapes générées est élevé, plus les détails de l'image sont riches.
  • Échelle de référenceIntensité du guidage textuel ; plus la valeur est élevée, plus l’image est proche de l’invite.
  • GraineUne graine aléatoire garantit une génération reproductible.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{ovisimage7b,
  title={Ovis-Image 7B: Text-to-Image Generation with Multi-Scale Transformer},
  author={AIDC-AI Team},
  journal={arXiv preprint arXiv:2511.22982},
  year={2025}
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp