HyperAIHyperAI

Ovis-U1-3B : Modèle De Compréhension Et De Génération Multimodale

1. Introduction au tutoriel

Étoiles GitHub

Ovis-U1-3B est un modèle multimodal unifié, publié par l'équipe Ovis du groupe Alibaba le 29 juin 2025. Ce modèle intègre trois fonctionnalités clés : la compréhension multimodale, la conversion texte-image et l'édition d'images. Basé sur une architecture avancée et une méthode d'apprentissage unifiée collaborative, il permet une synthèse d'images haute fidélité et une interaction texte-image efficace. Dans de nombreux tests académiques, tels que la compréhension, la génération et l'édition multimodales, Ovis-U1 a obtenu des résultats exceptionnels, démontrant de solides capacités de généralisation et des performances exceptionnelles. Les résultats de l'article sont les suivants :Rapport technique Ovis-U1".

Ce tutoriel utilise une seule carte graphique RTX 4090. Il propose trois exemples de test : Image + Texte → Image, Texte → Image et Image → Texte.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2.1 Image + Texte → Image

Description des paramètres

  • Paramètres avancés
    • Échelle de guidage d'image : contrôle la force de l'influence des indices textuels sur les images générées.
    • Échelle de guidage du texte : contrôle l’influence de l’image d’entrée sur l’image générée.
    • Étapes : le nombre d’itérations pour la génération d’images.
    • Graine : graine aléatoire pour la répétabilité du processus de génération d'images.
    • Randomiser la graine : randomiser la graine. Une nouvelle graine sera générée aléatoirement à chaque génération d'image.

2.2 Texte → Image

2.3 Image → Texte

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{wang2025ovisu1,
  title={Ovis-U1 Technical Report}, 
  author={Wang, Guo-Hua and Zhao, Shanshan and Zhang, Xinjie and Cao, Liangfu and Zhan, Pengxin and Duan, Lunhao and Lu, Shiyin and Fu, Minghao and Zhao, Jianshan and Li, Yang and Chen, Qing-Guo},
  journal={arXiv preprint arXiv:2506.23044},
  year={2025}
}

Ovis-U1-3B : Modèle De Compréhension Et De Génération Multimodale | Tutoriels | HyperAI