日期
机构
标签
分类
ActivityNet-Entities 在 ActivityNet Captions 字幕数据集的基础上增加了 158k 边界框标注。每个标注都为一个名词短语。这些数据可用于训练视频描述模型。数据集演示了模型基于视频生成描述的有效性,也展示如何将图像描述应用于 Flickr30k 数据集上。