@article{wang2023internvid, title={InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation}, author={Wang, Yi and He, Yinan and Li, Yizhuo and Li, Kunchang and Yu, Jiashuo and Ma, Xin and Chen, Xinyuan and Wang, Yaohui and Luo, Ping and Liu, Ziwei and Wang, Yali and Wang, Limin and Qiao, Yu}, journal={arXiv preprint arXiv:2307.06942}, year={2023} } @article{wang2022internvideo, title={InternVideo: General Video Foundation Models via Generative and Discriminative Learning}, author={Wang, Yi and Li, Kunchang and Li, Yizhuo and He, Yinan and Huang, Bingkun and Zhao, Zhiyu and Zhang, Hongjie and Xu, Jilan and Liu, Yi and Wang, Zun and Xing, Sen and Chen, Guo and Pan, Junting and Yu, Jiashuo and Wang, Yali and Wang, Limin and Qiao, Yu}, journal={arXiv preprint arXiv:2212.03191}, year={2022} }

日期

2 年前

大小

6.2 GB

数据集组织

论文 URL

标签

该数据集为上海人工智能实验室（上海 AI 实验室）联合南京大学、中国科学院等机构于 2024 年联合发布高质量大规模视频-文本数据集，旨在应对日益扩大的视频-语言建模规模需求，推动大模型视频理解和生成能力进一步提升。作为当前全球最大的视频-文本公开数据集之一，InternVid 包含超 700 万条配有详细文本描述的视频，涵盖 16 种场景和约 6,000 个动作描述，总时长接近 76 万小时，并具备高视频-文本对应性，数据集中的视频与文本描述高度匹配，为视频-文本语义匹配、视频-文本检索、视频-文本生成等多模态学习任务训练提供 “视频词典” 。 InternVid 受到学术界广泛关注，已应用于多模态世界模型 LWM，并被 Google 、 Stable AI 的视频生成工作使用或参考，相关论文在 2024 年国际表征学习大会 (ICLR 2024) 获 Spotlight 。

Citation

@article{wang2023internvid,
title={InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation},
author={Wang, Yi and He, Yinan and Li, Yizhuo and Li, Kunchang and Yu, Jiashuo and Ma, Xin and Chen, Xinyuan and Wang, Yaohui and Luo, Ping and Liu, Ziwei and Wang, Yali and Wang, Limin and Qiao, Yu},
journal={arXiv preprint arXiv:2307.06942},
year={2023}
}
@article{wang2022internvideo,
title={InternVideo: General Video Foundation Models via Generative and Discriminative Learning},
author={Wang, Yi and Li, Kunchang and Li, Yizhuo and He, Yinan and Huang, Bingkun and Zhao, Zhiyu and Zhang, Hongjie and Xu, Jilan and Liu, Yi and Wang, Zun and Xing, Sen and Chen, Guo and Pan, Junting and Yu, Jiashuo and Wang, Yali and Wang, Limin and Qiao, Yu},
journal={arXiv preprint arXiv:2212.03191},
year={2022}
}

InternVid-Full.torrent

做种 1正在下载 0已完成 227总下载量 444

InternVid-Full/
- README.md
  1.74 KB
- README.txt
  3.48 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

6.2 GB

数据集组织

论文 URL

标签

Citation

@article{wang2023internvid,
title={InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation},
author={Wang, Yi and He, Yinan and Li, Yizhuo and Li, Kunchang and Yu, Jiashuo and Ma, Xin and Chen, Xinyuan and Wang, Yaohui and Luo, Ping and Liu, Ziwei and Wang, Yali and Wang, Limin and Qiao, Yu},
journal={arXiv preprint arXiv:2307.06942},
year={2023}
}
@article{wang2022internvideo,
title={InternVideo: General Video Foundation Models via Generative and Discriminative Learning},
author={Wang, Yi and Li, Kunchang and Li, Yizhuo and He, Yinan and Huang, Bingkun and Zhao, Zhiyu and Zhang, Hongjie and Xu, Jilan and Liu, Yi and Wang, Zun and Xing, Sen and Chen, Guo and Pan, Junting and Yu, Jiashuo and Wang, Yali and Wang, Limin and Qiao, Yu},
journal={arXiv preprint arXiv:2212.03191},
year={2022}
}

InternVid-Full.torrent

做种 1正在下载 0已完成 227总下载量 444

InternVid-Full/
- README.md
  1.74 KB
- README.txt
  3.48 KB

22 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

InternVid-Full 高质量大规模视频-文本数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InternVid-Full 高质量大规模视频-文本数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

AgentTrove 智能体交互轨迹数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InternVid-Full 高质量大规模视频-文本数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

AgentTrove 智能体交互轨迹数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

AgentTrove 智能体交互轨迹数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集