Command Palette

Search for a command to run...

MCD 多模态代码生成数据集

日期

2 个月前

大小

18 GB

机构

Microsoft Research
Peking University
Southern University of Science and Technology(南方科技大学)

论文链接

2508.09945

Multimodal Coding Dataset(MCD)是由微软研究院、北京大学和南方科技大学提出并于 2025 年发布的一个大规模数据集,相关论文成果为「VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models」。

该数据集包含总计约 59.8 万条/对高质量样本,以指令跟随格式组织,覆盖多种输入模态(文本、图像、代码)与输出模态(代码、答案、解释),适用于多模态代码理解与生成任务。

数据包含:

  • 增强型 HTML 代码(HTML):约 20 万对代码-截图对,注重视觉效果与结构优化。
  • 图表(Chart):约 21 万图像-代码对,用于图像到代码复现。
  • 问答(QA):约 5.9 万代码-问答对,问题与答案以代码为核心。
  • 算法(Algorithm):约 12.9 万条算法编码问题与指令跟随样本。

MCD.torrent
做种 1正在下载 0已完成 8总下载次数 39
  • MCD/
    • README.md
      1.75 KB
    • README.txt
      3.5 KB
      • data/
        • MCD.zip
          18 GB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供