HyperAIHyperAI

Command Palette

Search for a command to run...

Ovis-U1-3B : Modèle De Compréhension Et De Génération Multimodale

Date

il y a 6 mois

Size

1.19 GB

License

Apache 2.0

Paper URL

2506.23044

1. Introduction au tutoriel

Étoiles GitHub

Ovis-U1-3B est un modèle multimodal unifié, publié le 29 juin 2025 par l'équipe Ovis du groupe Alibaba. Ce modèle intègre trois fonctionnalités clés : la compréhension multimodale, la génération d'images à partir de texte et l'édition d'images. Grâce à une architecture avancée et une méthode d'entraînement collaborative unifiée, il permet une synthèse d'images haute fidélité et une interaction texte-visuel efficace. Lors de nombreux tests de référence académiques, portant notamment sur la compréhension, la génération et l'édition multimodales, Ovis-U1 a obtenu des résultats exceptionnels, démontrant une forte capacité de généralisation et d'excellentes performances. Des articles de recherche associés sont disponibles. Rapport technique Ovis-U1 .

Ce tutoriel utilise une seule carte graphique RTX 4090. Il propose trois exemples de test : Image + Texte → Image, Texte → Image et Image → Texte.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2.1 Image + Texte → Image

Description des paramètres

  • Paramètres avancés
    • Échelle de guidage d'image : contrôle la force de l'influence des indices textuels sur les images générées.
    • Échelle de guidage du texte : contrôle l’influence de l’image d’entrée sur l’image générée.
    • Étapes : le nombre d’itérations pour la génération d’images.
    • Graine : graine aléatoire pour la répétabilité du processus de génération d'images.
    • Randomiser la graine : randomiser la graine. Une nouvelle graine sera générée aléatoirement à chaque génération d'image.

2.2 Texte → Image

2.3 Image → Texte

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{wang2025ovisu1,
  title={Ovis-U1 Technical Report}, 
  author={Wang, Guo-Hua and Zhao, Shanshan and Zhang, Xinjie and Cao, Liangfu and Zhan, Pengxin and Duan, Lunhao and Lu, Shiyin and Fu, Minghao and Zhao, Jianshan and Li, Yang and Chen, Qing-Guo},
  journal={arXiv preprint arXiv:2506.23044},
  year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp