Sekai:一个面向世界探索的视频数据集
Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
发布日期: 6/19/2025

摘要
视频生成技术已经取得了显著进展,有望成为互动世界探索的基础。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限性:地点有限、时长短、场景静态以及缺乏关于探索和世界的注释。在本文中,我们介绍了一个名为Sekai(日语中意为“世界”)的高质量第一人称视角全球视频数据集,该数据集包含来自超过100个国家和地区、750个城市中的超过5,000小时的步行或无人机视角(FPV和UVA)视频。我们开发了一套高效且有效的工具箱,用于收集、预处理并标注视频中的位置、场景、天气、人群密度、字幕和相机轨迹。实验结果证明了该数据集的质量。此外,我们使用该数据集的一个子集来训练一个名为YUME(日语中意为“梦想”)的互动视频世界探索模型。我们认为Sekai将有助于推动视频生成和世界探索领域的发展,并激发有价值的应用。