Command Palette
Search for a command to run...
CoSyn-400K Multimodaler Synthetischer Fragen- Und Antwortdatensatz
Datum
Größe
Paper-URL
CoSyn-400K ist ein multimodaler synthetischer Frage-Antwort-Datensatz, der 2025 gemeinsam von der University of Pennsylvania und dem Allen Institute for Artificial Intelligence veröffentlicht wird.Skalierung des textreichen Bildverständnisses durch codegesteuerte synthetische multimodale Datengenerierung“, dessen Ziel es ist, qualitativ hochwertige, skalierbare synthetische Datenressourcen für das Training multimodaler Modelle bereitzustellen.
Der Datensatz enthält mehr als 400.000 Bild-Text-Frage-Antwort-Paare aus 10 Bereichen wie Chemie, Mathematik, Ernährung und Musik, 9 Arten von textreichen Bildern (Diagramme, Dokumente, mathematische Probleme, Tabellen, Diagramme, Vektorgrafiken, Musikpartituren, Schaltpläne und chemische Strukturen) und 2,7 Millionen Zeilen an Anweisungsabstimmungsdaten (wie Bildtyp, Thema und Informationen zur Codegenerierung), die visuelle Frage-Antwort-Aufgaben unterstützen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.