Video Highlights 高光帧提取数据集

Video Highlights 数据集包含了超过 1470 个完整的综艺节目视频(约 1200h)的播放链接和包含提取特征的文件。其中 Highlight Clips 包括 18,000 个视频,总时长约 750 个小时,每个视频都精准标注了时间戳。研究人员可以利用训练数据集中…

iChallenge-GON 健康数据集

iChallenge-GON 是一个包含 1200 张带标注的视网膜眼底图像的大型数据集。 该数据集按照 1:1:1 的比例,平均分成了 3 个子集,分别用于训练、离线验证 (offline validation) 和现场测试 (onsite test),每个子集的青光眼存在的比…

ICDAR_2019_ArT 数据集

ICDAR 2019 ArT 是一个任意形状文本数据集。该数据集包括 10,176 张图像,其中 5603 张图像为训练集,4573 张图像为测试集。 该数据集中的图像源自 TotalText、CTW1500 和 LSVT 三个数据集,其中包含中文文本的部分源自百度街景,并以众包…

DuConv 对话数据集

DuConv 是一个基于电影和明星领域的数据集,包括票房、导演、评论等信息。 该数据集包括 30k 个对话,大约 120k 个对话回合。其中 20k 个对话为训练集,2k 个对话为开发集,8k 个对话用于构建测试样本。对话集和开发集中的每个对话都包含对话目的、背景知识和…

DuReader 大规模开放域中文机器阅读理解数据集

DuReader 是一个面向机器阅读理解的大型开放域中文数据集,可用于训练或评估机器阅读理解模型和系统。 该数据集由 20 万个问题、42 万个答案和 100 万个文档组成。问题和文档基于百度搜索和百度知道,答案由人工生成。该数据集还提供了问题类型的注释,每道问题都被手动标注了其…