Exécuter ce Notebook Discuter sur Discord

Date

il y a 6 mois

Taille

1.19 GB

Balises

Compréhension D'images

Génération D'images

Licence

Apache 2.0

GitHub

AIDC-AI/Ovis-U1

URL du document

2506.23044

1. Introduction au tutoriel

Ovis-U1-3B est un modèle multimodal unifié, publié le 29 juin 2025 par l'équipe Ovis du groupe Alibaba. Ce modèle intègre trois fonctionnalités clés : la compréhension multimodale, la génération d'images à partir de texte et l'édition d'images. Grâce à une architecture avancée et une méthode d'entraînement collaborative unifiée, il permet une synthèse d'images haute fidélité et une interaction texte-visuel efficace. Lors de nombreux tests de référence académiques, portant notamment sur la compréhension, la génération et l'édition multimodales, Ovis-U1 a obtenu des résultats exceptionnels, démontrant une forte capacité de généralisation et d'excellentes performances. Des articles de recherche associés sont disponibles. Rapport technique Ovis-U1 .

Ce tutoriel utilise une seule carte graphique RTX 4090. Il propose trois exemples de test : Image + Texte → Image, Texte → Image et Image → Texte.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2.1 Image + Texte → Image

Description des paramètres

Paramètres avancés
- Échelle de guidage d'image : contrôle la force de l'influence des indices textuels sur les images générées.
- Échelle de guidage du texte : contrôle l’influence de l’image d’entrée sur l’image générée.
- Étapes : le nombre d’itérations pour la génération d’images.
- Graine : graine aléatoire pour la répétabilité du processus de génération d'images.
- Randomiser la graine : randomiser la graine. Une nouvelle graine sera générée aléatoirement à chaque génération d'image.

2.2 Texte → Image

2.3 Image → Texte

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{wang2025ovisu1,
  title={Ovis-U1 Technical Report}, 
  author={Wang, Guo-Hua and Zhao, Shanshan and Zhang, Xinjie and Cao, Liangfu and Zhan, Pengxin and Duan, Lunhao and Lu, Shiyin and Fu, Minghao and Zhao, Jianshan and Li, Yang and Chen, Qing-Guo},
  journal={arXiv preprint arXiv:2506.23044},
  year={2025}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI