世界探査向けビデオデータセット:Sekai
Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
公開日: 6/19/2025

要約
動画生成技術は著しい進歩を遂げ、対話型の世界探査の基盤となることが期待されています。しかし、既存の動画生成データセットは世界探査の訓練に適していないという問題があります。その理由として、場所の限定性、短い持続時間、静止したシーン、そして探査や世界に関するアノテーションの不足が挙げられます。本論文では、「Sekai」(日本語で「世界」という意味)と呼ばれる高品質な第一人称視点の全世界動画データセットを紹介します。このデータセットには、750都市以上にわたる100カ国以上の地域から収集された5,000時間を超える歩行またはドローン視点(FPVおよびUAV)の動画が含まれています。私たちは効率的かつ効果的なツールボックスを開発し、動画を場所、シーン、天候、群衆密度、キャプション、カメラ軌道などの情報を付加して収集・前処理・アノテーションを行いました。実験結果はデータセットの品質を示しています。また、「YUME」(日本語で「夢」という意味)と名付けられた対話型世界探査モデルを訓練するために一部を使用しました。「Sekai」は動画生成と世界探査の分野に貢献し、価値ある応用研究を促進すると考えています。