Command Palette
Search for a command to run...
MCD-Datensatz Zur Multimodalen Codegenerierung
Datum
Größe
Paper-URL
Multimodal Coding Dataset (MCD) ist ein umfangreicher Datensatz, der von Microsoft Research, der Peking University und der Southern University of Science and Technology vorgeschlagen und 2025 veröffentlicht wird. Die zugehörigen Ergebnisse des Papiers sind „VisCodex: Einheitliche multimodale Codegenerierung durch Zusammenführung von Vision- und Codiermodellen".
Der Datensatz enthält insgesamt etwa 598.000 hochwertige Beispiele/Paare, die in einem Anweisungsformat organisiert sind, mehrere Eingabemodalitäten (Text, Bilder, Code) und Ausgabemodalitäten (Code, Antworten, Erklärungen) abdecken und für Aufgaben zum multimodalen Verständnis und zur Generierung von Code geeignet sind.
Die Daten umfassen:
- Verbesserter HTML-Code (HTML): ca. 200.000 Code-Screenshot-Paare mit Schwerpunkt auf visuellen Effekten und struktureller Optimierung.
- Diagramm: Etwa 210.000 Bild-Code-Paare für die Bild-zu-Code-Reproduktion.
- Frage und Antwort (QA): Etwa 59.000 Code-Frage-Antwort-Paare, wobei sich Fragen und Antworten um Code drehen.
- Algorithmus: Ungefähr 129.000 Algorithmus-Codierungsprobleme und Beispiele zum Befolgen von Anweisungen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.