HyperAIHyperAI

Command Palette

Search for a command to run...

Sekai:一个面向世界探索的视频数据集

摘要

视频生成技术已经取得了显著进展,有望成为互动世界探索的基础。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限性:地点有限、时长短、场景静态以及缺乏关于探索和世界的注释。在本文中,我们介绍了一个名为Sekai(日语中意为“世界”)的高质量第一人称视角全球视频数据集,该数据集包含来自超过100个国家和地区、750个城市中的超过5,000小时的步行或无人机视角(FPV和UVA)视频。我们开发了一套高效且有效的工具箱,用于收集、预处理并标注视频中的位置、场景、天气、人群密度、字幕和相机轨迹。实验结果证明了该数据集的质量。此外,我们使用该数据集的一个子集来训练一个名为YUME(日语中意为“梦想”)的互动视频世界探索模型。我们认为Sekai将有助于推动视频生成和世界探索领域的发展,并激发有价值的应用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供