MultiEdit 多模态图像编辑数据集
MultiEdit 是由 inclusionAI 联合新南威尔士大学和香港大学等机构于 2025 年发布的一个全面的大规模基于指令的图像编辑数据集,相关论文成果为「MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks」,旨在推动模型在复杂、多样化的图像编辑任务中的能力提升。
该数据集包含约 107k 条样本,覆盖 6 大编辑任务与 56 种子类别编辑类型,包括对象引用编辑、人物引用编辑、文本与界面元素调整、视角变换及风格迁移等。数据来源于多模态大模型(如 GPT-4o 与 GPT-Image-1)驱动的生成流程,通过指令构造、图像生成与质量筛选相结合的方式,确保了编辑样本的相关性与一致性。数据结构由「源图像–编辑指令–编辑结果」三元组组成,并附带编辑类别与来源信息。
数据构成
- 对象引用编辑(Object Reference Editing)
- 用于修改特定对象的属性,包括颜色、形状、比例和位置。
- 包含 4 种编辑类型,共 10,051 个样本(训练集 9,851,测试集 200)。
- 人物引用编辑(Person Reference Editing)
- 针对图像中的人物进行编辑,涵盖姿态、服饰、发型、肤色和体型等特征。
- 包含 5 种编辑类型,共 7,141 个样本(训练集 6,891,测试集 250)。
- 文本编辑(Text Editing)
- 对图像中的文本元素进行修改,例如字体样式、表述内容、显示介质与颜色。
- 包含 4 种编辑类型,共 4,060 个样本(训练集 3,860,测试集 200)。
- 界面编辑(GUI Editing)
- 用于编辑图形用户界面(GUI)元素的图标属性及显示介质,覆盖 iOS 、 Android 与网页界面。
- 包含 2 种编辑类型,共 2,880 个样本(训练集 2,780,测试集 100)。
- 视角编辑(View Editing)
- 生成图像主体(包括人物、地标与一般对象)的不同视角。
- 包含 3 种编辑类型,共 28,205 个样本(训练集 28,055,测试集 150)。
- 风格迁移(Style Transfer)
- 将图像转换为 38 种艺术风格,从经典艺术形式到现代数字美学。
- 包含 38 种编辑类型,共 56,297 个样本(训练集 55,097,测试集 200)。
MultiEdit.torrent
做种 1正在下载 0已完成 1总下载次数 2