HyperAIHyperAI

Command Palette

Search for a command to run...

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

Date

il y a 8 jours

Size

53.22 MB

License

Apache 2.0

Paper URL

arxiv.org

1. Introduction au tutoriel

Construire

LongCat-Image est un modèle open source de génération et d'édition d'images, publié par l'équipe LongCat de Meituan en décembre 2025. Conçu pour les environnements bilingues (chinois et anglais), il offre des capacités exceptionnelles de conversion de texte en image et de rendu de texte. Avec seulement 6 octets de paramètres, ce modèle affiche une efficacité et des performances bien supérieures à celles des modèles open source similaires. Il atteint des résultats visuels réalistes et de haute qualité lors de nombreux tests de performance et se positionne comme une référence en matière de précision et de couverture du rendu de texte chinois. De plus, LongCat-Image propose des fonctionnalités avancées d'édition d'images et une chaîne d'outils open source complète, permettant aux développeurs de déployer, d'étudier et de perfectionner le modèle plus facilement, contribuant ainsi à l'écosystème open source à la production d'images efficaces, réalistes et de haute qualité. Des articles de recherche associés sont disponibles. Rapport technique LongCat-Image .

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois sur la page web, vous pouvez saisir du texte et générer une image.

Si le message « Passerelle incorrecte » s'affiche, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 3 à 4 minutes avant d'actualiser la page.

Comment utiliser

Description des paramètres

  • LoRA personnalisé (facultatif)
    • LoRA personnalisé: Entrez l'URL ou le chemin d'accès aux poids LoRA pour charger les modèles LoRA avec des styles ou des fonctionnalités supplémentaires.
    • Échelle LoRAIntensité LoRA (plage 0-2)
  • Résolution de sortie
    • Largeur: Largeur de l'image générée (64~2048, vous pouvez la saisir vous-même ou faire glisser le curseur)
    • HauteurHauteur de l'image générée (64~2048, peut être saisie manuellement ou en faisant glisser le curseur)
  • paramètres de graine aléatoire
    • GraineContrôler le caractère aléatoire des images générées
      • -1 ou cochez « Aléatoire » pour indiquer une graine aléatoire à chaque fois.
      • La saisie d'un nombre fixe permettra de reproduire la même image.
    • Graine aléatoireLors de la vérification, une graine différente sera utilisée pour chaque génération.
  • Paramètres d'inférence
    • Étapes d'inférence: Affecte la qualité et la vitesse de génération (plage de 1 à 100, plus la valeur est élevée, meilleure est généralement la qualité de l'image, mais plus le processus est long).
    • Échelle de référenceContrôle le degré d'influence des « indications textuelles » sur les images (plage de 1 à 20).
      • Plus la valeur est élevée, plus elle correspond au mot-clé.
      • Les valeurs plus faibles indiquent une plus grande liberté et un plus grand caractère aléatoire.

Informations sur la citation

@article{LongCat-Image,
      title={LongCat-Image Technical Report},
      author={Meituan LongCat Team and  Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
	    journal={arXiv preprint arXiv:2512.07584},
      year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp