مجموعة بيانات لحظات في الزمن: مليون مقطع فيديو لفهم الأحداث

نقدم مجموعة بيانات "لحظات في الزمن" (Moments in Time Dataset)، وهي مجموعة ضخمة مصحوبة بتعليقات بشرية تتضمن مليون فيديو قصير يتوافق مع أحداث ديناميكية تحدث خلال ثلاث ثوانٍ. نمذجة الديناميكيات المكانية-الصوتية-الزمانية حتى للأفعال التي تحدث في مقاطع الفيديو الثلاث ثوانٍ تمثل العديد من التحديات: الأحداث ذات المعنى لا تشمل البشر فحسب، بل تشمل أيضًا الأشياء والحيوانات والظواهر الطبيعية؛ يمكن أن تكون الأحداث البصرية والسمعية متماثلة زمنيًا ("الفتح" هو "الإغلاق" بالعكس)، ويمكن أن تكون إما عابرة أو مستمرة. نصف عملية التعليق على مجموعتنا من البيانات (حيث يتم وضع علامة واحدة على كل فيديو من بين 339 فئة مختلفة)، ونحلل حجمها ومتنوعيتها مقارنة بمجموعات البيانات الضخمة الأخرى للفيديو المستخدمة في التعرف على الأفعال، ونبلغ عن نتائج عدة نماذج أساسية تعالج بشكل منفصل ومعًا ثلاثة أنماط: المكاني والزماني والسمعي. يمكن لمجموعة بيانات "لحظات في الزمن"، المصممة لتغطية أحداث ذات نطاق واسع ومتنوعة في كل من الأنماط البصرية والسمعية، أن تعمل كتحدي جديد لتطوير النماذج التي تصل إلى مستوى التعقيد والاستدلال المجرد الذي يتعامل به الإنسان يوميًا.