HyperAIHyperAI

Command Palette

Search for a command to run...

MCD-Datensatz Zur Multimodalen Codegenerierung

Date

vor 4 Monaten

Size

18 GB

Organization

Microsoft Research
Peking-Universität
Südliche Universität für Wissenschaft und Technologie

Paper URL

2508.09945

Multimodal Coding Dataset (MCD) ist ein umfangreicher Datensatz, der von Microsoft Research, der Peking University und der Southern University of Science and Technology vorgeschlagen und 2025 veröffentlicht wird. Die zugehörigen Ergebnisse des Papiers sind „VisCodex: Einheitliche multimodale Codegenerierung durch Zusammenführung von Vision- und Codiermodellen".

Der Datensatz enthält insgesamt etwa 598.000 hochwertige Beispiele/Paare, die in einem Anweisungsformat organisiert sind, mehrere Eingabemodalitäten (Text, Bilder, Code) und Ausgabemodalitäten (Code, Antworten, Erklärungen) abdecken und für Aufgaben zum multimodalen Verständnis und zur Generierung von Code geeignet sind.

Die Daten umfassen:

  • Verbesserter HTML-Code (HTML): ca. 200.000 Code-Screenshot-Paare mit Schwerpunkt auf visuellen Effekten und struktureller Optimierung.
  • Diagramm: Etwa 210.000 Bild-Code-Paare für die Bild-zu-Code-Reproduktion.
  • Frage und Antwort (QA): Etwa 59.000 Code-Frage-Antwort-Paare, wobei sich Fragen und Antworten um Code drehen.
  • Algorithmus: Ungefähr 129.000 Algorithmus-Codierungsprobleme und Beispiele zum Befolgen von Anweisungen.

MCD.torrent
Seeding 1Downloading 0Completed 15Total Downloads 78
  • MCD/
    • README.md
      1.75 KB
    • README.txt
      3.5 KB
      • data/
        • MCD.zip
          18 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp