Sekai: مجموعة بيانات فيديو لاستكشاف العالم

حققت تقنيات إنشاء الفيديو تقدماً ملحوظاً، وتعهدت بأن تكون أساس استكشاف العالم التفاعلي. ومع ذلك، فإن مجموعات البيانات الحالية لإنشاء الفيديو ليست مناسبة بشكل جيد لتدريب استكشاف العالم نظرًا لبعض القيود: مواقع محدودة، مدّة قصيرة، مشاهد ثابتة، ونقص في التسميات المتعلقة باستكشاف العالم والعالم نفسه. في هذا البحث، نقدم "سكياي" (Sekai)، وهي مجموعة بيانات فيديو عالمية عالية الجودة من وجهة نظر الشخص الأول مع تسميات غنية لاستكشاف العالم. تتكون هذه المجموعة من أكثر من 5,000 ساعة من مقاطع الفيديو التي تم التقاطها أثناء المشي أو باستخدام الطائرات بدون طيار (من وجهة نظر الشخص الأول FPV وUVA) من أكثر من 100 دولة ومنطقة عبر 750 مدينة. قدّمنا أداة فعالة وكفؤة لجمع ومعالجة وتسمية مقاطع الفيديو ببيانات الموقع والمشهد والطقس وكثافة الحشد والعناوين ومسارات الكاميرا. تظهر التجارب جودة هذه المجموعة من البيانات. كما استخدمنا جزءًا منها لتدريب نموذج استكشاف عالم الفيديو التفاعلي، والذي سميناه "يومي" (YUME). نعتقد أن "سكياي" ستفيد مجال إنشاء الفيديو واستكشاف العالم، وستحفز التطبيقات القيمة.