日期
大小
机构
发布地址
github.com
许可协议
其他
标签
图像检索
多模态文本摘要
文本识别
分类
WIT 全称 Wikipedia-based Image Text,是一个大型多模态多语言数据集。该数据集由 3,760 万个实体丰富的图像-文本示例的精选集组成,其中包含 108 种 Wikipedia 语言中的 1,150 万 个唯一图像。该数据集的规模使其可以用作多模态机器学习模型的预训练数据集。
WIT 具有四个独特优势:
做种 1
下载中 1
已完成 293
总下载 443