HyperAI

Sekai: مجموعة بيانات فيديو لاستكشاف العالم

Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
تاريخ النشر: 6/19/2025
Sekai: مجموعة بيانات فيديو لاستكشاف العالم
الملخص

حققت تقنيات إنشاء الفيديو تقدماً ملحوظاً، وتعهدت بأن تكون أساس استكشاف العالم التفاعلي. ومع ذلك، فإن مجموعات البيانات الحالية لإنشاء الفيديو ليست مناسبة بشكل جيد لتدريب استكشاف العالم نظرًا لبعض القيود: مواقع محدودة، مدّة قصيرة، مشاهد ثابتة، ونقص في التسميات المتعلقة باستكشاف العالم والعالم نفسه. في هذا البحث، نقدم "سكياي" (Sekai)، وهي مجموعة بيانات فيديو عالمية عالية الجودة من وجهة نظر الشخص الأول مع تسميات غنية لاستكشاف العالم. تتكون هذه المجموعة من أكثر من 5,000 ساعة من مقاطع الفيديو التي تم التقاطها أثناء المشي أو باستخدام الطائرات بدون طيار (من وجهة نظر الشخص الأول FPV وUVA) من أكثر من 100 دولة ومنطقة عبر 750 مدينة. قدّمنا أداة فعالة وكفؤة لجمع ومعالجة وتسمية مقاطع الفيديو ببيانات الموقع والمشهد والطقس وكثافة الحشد والعناوين ومسارات الكاميرا. تظهر التجارب جودة هذه المجموعة من البيانات. كما استخدمنا جزءًا منها لتدريب نموذج استكشاف عالم الفيديو التفاعلي، والذي سميناه "يومي" (YUME). نعتقد أن "سكياي" ستفيد مجال إنشاء الفيديو واستكشاف العالم، وستحفز التطبيقات القيمة.