Semi-iNat 全称 Semi-Supervised iNaturalist,是一个具有挑战性的半监督分类数据集。该数据集具有长尾分布的类别,细粒度的类别,以及标注和未标注数据之间的域偏移 (domain shifts)。 该数据集包含标准的训练、验证和测试集。训练集包含来自…
机构: University of Massachusetts Amherst
PhraseCut 基于语言的图像分割数据集
PhraseCut 数据集包含 77,262 张图像和 345,486 个短语-区域对。该数据集搜集自 Visual Genome 数据集,并使用现有的标注来生成一组具有挑战性的参考短语,对这些短语的相应区域进行人工标注。
WikiLinks 维基百科链接数据集
WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体(或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。 数据集包括…