Sekai: 세계 탐사를 위한 비디오 데이터셋
Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
발행일: 6/19/2025

초록
비디오 생성 기술은 상당한 발전을 이룩하여 상호작용적인 세계 탐사의 기반이 될 가능성을 보여주고 있습니다. 그러나 기존의 비디오 생성 데이터셋들은 세계 탐사 훈련에 적합하지 않다는 문제점이 있습니다. 이는 위치 제한, 짧은 지속 시간, 정적인 장면, 그리고 탐사와 관련된 주석 부족 등의 한계 때문입니다. 본 논문에서는 이러한 문제를 해결하기 위해 일본어로 '세카이' (Sekai, '세계'라는 뜻)라고 이름 붙인, 고품질의 1인칭 시점 전세계 비디오 데이터셋을 소개합니다. 이 데이터셋은 750개 이상의 도시에 걸쳐 100개 이상의 국가 및 지역에서 촬영된 5,000시간 이상의 보행자 시점이나 드론 시점(FPV와 UVA) 비디오로 구성되어 있습니다. 우리는 효율적이고 효과적인 도구를 개발하여 비디오를 수집, 사전 처리하고 위치, 장면, 날씨, 인원 밀도, 자막 및 카메라 궤적 등으로 주석을 달았습니다. 실험 결과는 이 데이터셋의 품질을 입증합니다. 또한, 이 데이터셋의 일부를 사용하여 상호작용적인 비디오 세계 탐사 모델인 '유메' (YUME, '꿈'이라는 뜻)를 훈련시켰습니다. 우리는 세카이가 비디오 생성과 세계 탐사 분야에 기여할 것이며, 가치 있는 응용 프로그램들을 촉진할 것이라고 믿습니다.