HyperAIHyperAI

Command Palette

Search for a command to run...

LongCat-Image: Ein Zweisprachiges Textgesteuertes Bildgenerierungssystem

Date

vor 8 Tagen

Size

53.22 MB

License

Apache 2.0

Paper URL

arxiv.org

1. Einführung in das Tutorial

Bauen

LongCat-Image ist ein Open-Source-Modell zur Bildgenerierung und -bearbeitung, das vom LongCat-Team von Meituan im Dezember 2025 veröffentlicht wurde. Es wurde für zweisprachige (Chinesisch und Englisch) Szenarien entwickelt und zeichnet sich durch herausragende Text-zu-Bild-Generierung und Textdarstellung aus. Mit nur 6 Byte Parametern übertrifft dieses Modell vergleichbare Open-Source-Modelle in puncto Effizienz und Leistung deutlich. Es erzielt in mehreren Benchmark-Tests hochwertige und realistische Ergebnisse bei der Bildgenerierung und erreicht branchenführende Werte hinsichtlich Genauigkeit und Abdeckung der chinesischen Textdarstellung. Darüber hinaus bietet LongCat-Image fortschrittliche Bildbearbeitungsfunktionen und eine umfassende Open-Source-Toolchain. Dies ermöglicht Entwicklern einen einfachen Einstieg in die Bereitstellung, Forschung und Weiterentwicklung des Modells und trägt so zu einer effizienten, realistischen und qualitativ hochwertigen Bildausgabe im Open-Source-Ökosystem bei. Zugehörige Forschungsarbeiten sind verfügbar. Technischer Bericht zu LongCat-Image .

In diesem Tutorial wird eine einzelne RTX 5090-Grafikkarte als Standardressource verwendet.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Nach dem Aufrufen der Webseite können Sie Text eingeben und ein Bild generieren.

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 3–4 Minuten und aktualisieren Sie die Seite.

Anwendung

Parameterbeschreibung

  • Benutzerdefiniertes LoRA (optional)
    • Benutzerdefiniertes LoRAGeben Sie die URL oder den Pfad für LoRA-Gewichte ein, um LoRA-Modelle mit zusätzlichen Stilen oder Funktionen zu laden.
    • LoRA-SkalaLoRA-Intensität (Bereich 0-2)
  • Ausgabeauflösung
    • BreiteBreite des generierten Bildes (64~2048, Sie können den Wert selbst eingeben oder den Schieberegler verwenden)
    • HöheHöhe des generierten Bildes (64~2048, kann manuell oder per Schieberegler eingegeben werden)
  • Einstellungen für Zufallszahlengenerator
    • SamenKontrolle der Zufälligkeit generierter Bilder
      • -1 oder aktivieren Sie "Randomize", um jedes Mal einen zufälligen Startwert anzugeben.
      • Die Eingabe einer festen Zahl erzeugt dasselbe Bild.
    • ZufallssamenWenn dies überprüft wird, wird für jede Generation ein anderer Samen verwendet.
  • Inferenzparameter
    • Schlussfolgerungsschritte: Beeinflusst die Generierungsqualität und -geschwindigkeit (Bereich 1-100, je höher der Wert, desto höher ist in der Regel die Bildqualität, aber desto länger dauert es).
    • LeitfadenSteuert den Einfluss von „Texthinweisen“ auf Bilder (Bereich 1-20).
      • Je höher der Wert, desto besser passt er zum vorgegebenen Wort.
      • Niedrigere Werte deuten auf mehr Freiheit und größere Zufälligkeit hin.

Zitationsinformationen

@article{LongCat-Image,
      title={LongCat-Image Technical Report},
      author={Meituan LongCat Team and  Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
	    journal={arXiv preprint arXiv:2512.07584},
      year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp