Command Palette
Search for a command to run...
Text-to-Image-2M Text-to-Image-Trainingsdatensatz
Text-to-Image-2M ist ein hochwertiger Text-Bild-Paar-Datensatz zur Feinabstimmung von Text-zu-Bild-Modellen. Bestehende öffentliche Datensätze weisen häufig Einschränkungen auf (Bildverständnis-Datensätze, informell erhobene oder aufgabenspezifische Datensätze sowie Größenbeschränkungen). Um diese Probleme zu lösen, kombinierte und erweiterte das Team vorhandene hochwertige Datensätze mit fortschrittlichen Text-zu-Bild- und Untertitelungsmodellen, um den Text-to-Image-2M-Datensatz zu erstellen.
Der Datensatz enthält etwa 2 Millionen Beispiele, die in zwei Kernteilmengen unterteilt sind: data_512_2M (2 Millionen Bilder und Anmerkungen mit einer Auflösung von 512 × 512) und data_1024_10K (10.000 hochauflösende Bilder und Anmerkungen mit 1024 × 1024), und bietet flexible Optionen für das Modelltraining mit unterschiedlichen Genauigkeitsanforderungen.
Datenzusammensetzung:
- data_512_2M:
- LLaVA-next Feinabstimmungsdatensatz (ca. 700.000 Beispiele, Text wird von Qwen2-VL neu generiert, um die Genauigkeit zu verbessern)
- Vortrainierter LLaVA-Datensatz (ca. 500.000 Beispiele, Bilder werden vom Flux-dev-Modell generiert und die ursprünglichen Textbeschreibungen bleiben erhalten)
- Synthetischer Datensatz von ProGamerGov (~900.000 Beispiele, zentriert und validitätsgefiltert)
- Von GPT-4o generierter Datensatz (100.000 Beispiele, von GPT-4o erstellter Text, von Flux-dev generierte Bilder)
- Daten_1024_10K:
- Enthält 10.000 hochauflösende Bilder, mit von GPT-4o generiertem Text und vom Flux-dev-Modell gerenderten Bildern, wobei der Schwerpunkt auf komplexen Szenen mit vielen Details liegt
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.