LSVTD 全称 large-scale video text dataset,包含来自 21 个自然场景的 100 个视频。该数据集涵盖了广泛的 13 个室内(如书店、商场)和 9 个室外场景,其多样性是 IC15 数据集的 3 倍以上。
LSVTD 视频文本理解数据集
本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)
感谢您下载 LSVTD 视频文本理解数据集!
本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。
获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。
感谢您下载 LSVTD 视频文本理解数据集!

相关数据集推荐
WIT 图像-文本数据集
WIT 全称 Wikipedia-based Image Text,是一个大型多模态多语言数据集。该数据集由 3,760 万个实体丰富的图像-文本示例的精选集组成,其中包含 108 种 Wikipedia 语言中的 1,150万 个唯一图像。该数据集的规模使其可以用作多模态机器学…

Kuzushiji-Kanji 汉字数据集
Kuzushiji-Kanji 是一个含有 3,832个汉字(Kanji)字符的不平衡数据集,并且包含了一些极少数、极稀有的样例。Kuzushiji-kanji 共有 3,832 个类(140,426 幅图像),从每个类有 1,766 个例子到每个类只有一个例子。Kuzushij…

MLe2e 文本识别数据集
MLe2e 全称 Multi-Language end-to-end,用于评估场景文本端到端阅读系统,以及所有中间阶段,如文本检测、脚本识别和文本识别。该数据集共包含 711 个场景图像,涵盖四种不同的语言(拉丁文、中文、卡纳达文和韩文)。
