HyperAIHyperAI

Command Palette

Search for a command to run...

CoSyn-400K Multimodaler Synthetischer Fragen- Und Antwortdatensatz

Date

vor 5 Monaten

Size

59.4 GB

Organization

Allen Institute for Artificial Intelligence
Universität von Pennsylvania

Paper URL

arxiv.org

CoSyn-400K ist ein multimodaler synthetischer Frage-Antwort-Datensatz, der 2025 gemeinsam von der University of Pennsylvania und dem Allen Institute for Artificial Intelligence veröffentlicht wird.Skalierung des textreichen Bildverständnisses durch codegesteuerte synthetische multimodale Datengenerierung“, dessen Ziel es ist, qualitativ hochwertige, skalierbare synthetische Datenressourcen für das Training multimodaler Modelle bereitzustellen.

Der Datensatz enthält mehr als 400.000 Bild-Text-Frage-Antwort-Paare aus 10 Bereichen wie Chemie, Mathematik, Ernährung und Musik, 9 Arten von textreichen Bildern (Diagramme, Dokumente, mathematische Probleme, Tabellen, Diagramme, Vektorgrafiken, Musikpartituren, Schaltpläne und chemische Strukturen) und 2,7 Millionen Zeilen an Anweisungsabstimmungsdaten (wie Bildtyp, Thema und Informationen zur Codegenerierung), die visuelle Frage-Antwort-Aufgaben unterstützen.

CoSyn-400K.torrent
Seeding 2Downloading 0Completed 25Total Downloads 115
  • CoSyn-400K/
    • README.md
      1.56 KB
    • README.txt
      3.11 KB
      • data/
        • CoSyn-400K.zip
          59.4 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CoSyn-400K Multimodaler Synthetischer Fragen- Und Antwortdatensatz | Datasets | HyperAI