ActivityNet-Entities 在 ActivityNet Captions 字幕数据集的基础上增加了 158k 边界框标注。每个标注都为一个名词短语。这些数据可用于训练视频描述模型。数据集演示了模型基于视频生成描述的有效性,也展示如何将图像描述应用于 Flickr30k 数据集上。
ActivityNet Entities 字幕数据集
本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)
感谢您下载 ActivityNet Entities 字幕数据集!
本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。
获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。
感谢您下载 ActivityNet Entities 字幕数据集!

相关数据集推荐
DanceTrack 运动跟踪数据集
DanceTrack 是一个大规模的多对象跟踪数据集。用于在遮挡、频繁交叉、同样服装和多样化身体姿态条件下对人进行跟踪。强调运动分析在多对象跟踪中的重要性。

YouTube-UGC 视频数据集
YouTube-UGC 是一个大规模 UGC 数据集,包括 YouTube 官网上 1500 个时长 20 秒的视频,这些内容均由用户遵循知识共享协议上传,可用于视频压缩和质量评估领域的研究。视频内容涵盖了游戏、体育等热门类别,以及高动态范围成像(HDR)等新特性。质量评估使用了…

A3D 交通事故数据集
A3D 全称 AnAn Accident Detection,是一个全新的关于各种交通事故的数据集。识别交通违章和自动驾驶场景中的事故事件对于自动驾驶和驾驶员辅助系统至关重要。常见的交通事故视频往往假设摄像头固定,视频有静态背景,但这对于车载摄像头就不合理了。所以该数据集的视频基…
