1. Einführung in das Tutorial

Ovis-Image ist ein hochwertiges Text-zu-Bild-Generierungssystem (T2I), das auf dem hochpräzisen Text-zu-Bild-Generierungsmodell Ovis-Image-7B des AIDC-AI-Teams vom November 2025 basiert. Das System nutzt einen Multi-Scale-Transformer-Encoder und eine autoregressive generative Architektur und erzielt herausragende Ergebnisse bei der Generierung hochauflösender Bilder, der detailreichen Darstellung und der Anpassung an verschiedene Stile. Dank optimierter Rauschabtastung und klassifikatorfreier Verfahren generiert Ovis-Image natürliche, kohärente und detailreiche Bilder mit einer Auflösung von 1024×1024 Pixeln und unterstützt dabei verschiedene Stile wie realistisch, Cyberpunk, Anime und Science-Fiction. Verwandte Forschungsarbeiten sind verfügbar. Ovis-Image 7B: Text-zu-Bild-Generierung mit Multi-Scale-Transformer .

Kernfunktionen:

Native Generierung in hoher Auflösung: Unterstützt native Generierung bis zu einer Auflösung von 1024×1024 Pixeln und erzielt so klare und detaillierte Ergebnisse ohne die Notwendigkeit zusätzlicher Super-Resolution-Modelle.
Multiskalige semantische Modellierung: Basierend auf einer multiskaligen Transformer-Kodierungsstruktur werden sowohl die Gesamtkomposition als auch lokale Texturdetails berücksichtigt.
Hochwertige Detailwiedergabe: Stabile Darstellung von Charakteren, Materialien, Beleuchtung und Umgebungskomplexität.
Hohe Vielseitigkeit in verschiedenen Stilen: Unterstützt nativ diverse gängige Stile wie Realismus, Cyberpunk, Anime, Science-Fiction und Illustration.
Hochgradig kontrollierbare Generierungsfähigkeit: Eine feine und kontrollierbare Generierung wird durch Führungsskala, Abtastschritte, Auflösung und Zufallsstartwerte erreicht.
Ausgewogene Inferenzgenauigkeit und Effizienz: Unterstützt BF16-Inferenz mit geringem Speicherbedarf und nutzt gleichzeitig FP32 Decode zur Verbesserung der endgültigen Bildgenauigkeit.

Dieses Tutorial verwendet Grado, um das Ovis-Image 7B-Kernmodell mit "RTX_5090"-Rechenressourcen bereitzustellen, das eine hochauflösende Textgenerierung von 1024×1024 ohne Videospeicher-/Speicherengpässe ermöglicht.

2. Effektanzeige

Der Ovis-Image 7B schneidet bei Kernaufgaben außergewöhnlich gut ab:

Komplexe Szenengenerierung: Erzeugung natürlicher und logisch schlüssiger Bilder aus detaillierten Textvorgaben.
Unterstützung mehrerer Stile: Kann verschiedene visuelle Stile generieren, wie z. B. realistisch, Cyberpunk, Anime und Science-Fiction.
Hochauflösende Details: Reichhaltige Texturen, Schatten und Lichteffekte.
Steuerbarkeit: Der erzeugte Effekt kann durch Ändern der Schrittzahl, des Führungsmaßstabs und der Auflösung angepasst werden.

3. Bedienungsschritte

1. Starten Sie den Container

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

2. Erste Schritte

Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte 2–3 Minuten und aktualisieren Sie dann die Seite.

Parameterbeschreibung

Bildhöhe / -breite: Erzeugt die Höhe und Breite des Bildes in Schritten von 32.
Anzahl der InferenzschritteJe mehr Schritte generiert werden, desto detailreicher ist das Bild.
LeitfadenStärke der Textvorgabe; je höher der Wert, desto näher ist das Bild an der Vorgabe.
SamenDie Verwendung eines Zufallsgenerators gewährleistet die Reproduzierbarkeit der Ergebnisse.

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{ovisimage7b,
  title={Ovis-Image 7B: Text-to-Image Generation with Multi-Scale Transformer},
  author={AIDC-AI Team},
  journal={arXiv preprint arXiv:2511.22982},
  year={2025}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Notebook-Übersicht

Stufe

Einsteiger

Thema

Computer Vision Generative KI

ERNIE-Image-Turbo Bildmodell

vor 2 Monaten

Z-Image: Alibabas Open-Source-Textbildmodell Mit 6 Milliarden Parametern

vor 4 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 7 Monaten

1. Einführung in das Tutorial

Kernfunktionen:

Native Generierung in hoher Auflösung: Unterstützt native Generierung bis zu einer Auflösung von 1024×1024 Pixeln und erzielt so klare und detaillierte Ergebnisse ohne die Notwendigkeit zusätzlicher Super-Resolution-Modelle.
Multiskalige semantische Modellierung: Basierend auf einer multiskaligen Transformer-Kodierungsstruktur werden sowohl die Gesamtkomposition als auch lokale Texturdetails berücksichtigt.
Hochwertige Detailwiedergabe: Stabile Darstellung von Charakteren, Materialien, Beleuchtung und Umgebungskomplexität.
Hohe Vielseitigkeit in verschiedenen Stilen: Unterstützt nativ diverse gängige Stile wie Realismus, Cyberpunk, Anime, Science-Fiction und Illustration.
Hochgradig kontrollierbare Generierungsfähigkeit: Eine feine und kontrollierbare Generierung wird durch Führungsskala, Abtastschritte, Auflösung und Zufallsstartwerte erreicht.
Ausgewogene Inferenzgenauigkeit und Effizienz: Unterstützt BF16-Inferenz mit geringem Speicherbedarf und nutzt gleichzeitig FP32 Decode zur Verbesserung der endgültigen Bildgenauigkeit.

Dieses Tutorial verwendet Grado, um das Ovis-Image 7B-Kernmodell mit "RTX_5090"-Rechenressourcen bereitzustellen, das eine hochauflösende Textgenerierung von 1024×1024 ohne Videospeicher-/Speicherengpässe ermöglicht.

2. Effektanzeige

Der Ovis-Image 7B schneidet bei Kernaufgaben außergewöhnlich gut ab:

Komplexe Szenengenerierung: Erzeugung natürlicher und logisch schlüssiger Bilder aus detaillierten Textvorgaben.
Unterstützung mehrerer Stile: Kann verschiedene visuelle Stile generieren, wie z. B. realistisch, Cyberpunk, Anime und Science-Fiction.
Hochauflösende Details: Reichhaltige Texturen, Schatten und Lichteffekte.
Steuerbarkeit: Der erzeugte Effekt kann durch Ändern der Schrittzahl, des Führungsmaßstabs und der Auflösung angepasst werden.