Talk2Car 自动驾驶数据集

Talk2Car 数据集是一个对象引用数据集,包含了用自然语言为自动驾驶汽车编写的命令,即乘客可以通过说话的形式对自动驾驶汽车下达命令。Talk2Car 数据集建立在 nuScenes 数据集之上,包括一套广泛的传感器模式,即语义地图、GPS、激光雷达、雷达和带有 3D boun…

ShapeWorld 多模态语言理解数据集

ShapeWorld 是一个新型多模态深度学习模型评估方法和框架,侧重于形式语义风格的泛化能力。在这个框架中,人工数据是根据预定义的规范自动生成的。这种受控的数据生成使得在评估过程中引入以前看不见的实例配置成为可能,因此需要系统以新颖的方式重新组合所学到的概念。 麻省理工大学发布…

Clotho 音频字幕数据集

Clotho 是一个 audio captioning 数据集。该数据集侧重于音频的内容,以及字幕的多样性,由 4,981 个音频样本组成,每个音频样本有 5 个字幕(总共 24,905 个字幕),持续时间为 15 到 30 秒,字幕长度为 8 到 20 个单词。

TVQA 视频问答数据集

TVQA 数据集是一个大规模的视频问答数据集,视频来源于 6 部经典美剧。该数据集包含约 152.5K 个问答对,这些问答对来自 21.8K 个时长为 60-90 秒的视频片段,总长度超过 460 个小时。这些问答对以 8:1:1 的比例用于训练、验证和测试集。 TVQA 数据集…

DiDeMo 时间定位数据集

DiDeMo 全称 Distinct Describable Moments,可用于在给定自然语言描述的情况下,对视频中的事件进行时间定位。数据集中的视频是从 Flickr 收集的,每个视频都被剪辑成最多 30 秒的片段。数据集中的视频被分为每 5 秒钟一个片段,以降低标注的复杂…

DuConv 对话数据集

DuConv 是一个基于电影和明星领域的数据集,包括票房、导演、评论等信息。 该数据集包括 30k 个对话,大约 120k 个对话回合。其中 20k 个对话为训练集,2k 个对话为开发集,8k 个对话用于构建测试样本。对话集和开发集中的每个对话都包含对话目的、背景知识和…

VQA (v2.0) 开放式问答数据集

VQA (v2.0) 全称 Visual Question Answering (v2.0),是一个人工标注的、关于图像的开放式问答数据集。回答这些问题,需要对图像、语言以及常识都具备一定的理解力。 示例图像: 该数据集包括: 265,016 张图像(源自 COCO 以及 abs…

Couplet-Dataset 对联数据集

该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集又分别分为上联和下联两部分。 数据集来自于冯重朴_梨味斋散叶的博主的新浪博客,被广泛应用于 AI 对联数据集模型的训练。