Command Palette
Search for a command to run...
مجموعة بيانات Moments in Time: مليون فيديو لفهم الأحداث
مجموعة بيانات Moments in Time: مليون فيديو لفهم الأحداث
الملخص
نقدّم مجموعة بيانات "لحظات في الزمن" (Moments in Time Dataset)، وهي مجموعة كبيرة من الفيديوهات القصيرة التي تم تسميتها يدويًا من قبل البشر، تضم مليون مقطع فيديو يمثّل أحداثًا ديناميكية تحدث خلال ثلاث ثوانٍ. يشكّل نمذجة الديناميات المكانية والصوتية والزمنية، حتى بالنسبة للإجراءات التي تحدث في مقاطع فيديو مدتها ثلاث ثوانٍ، تحديات كثيرة: فالمُؤشّرات ذات المعنى لا تقتصر على الأشخاص، بل تمتد إلى الأشياء، والحيوانات، والظواهر الطبيعية أيضًا؛ كما يمكن أن تكون الأحداث البصرية والصوتية متماثلة في الزمن ("الفتح" هو "الإغلاق" بالعكس)، وقد تكون مؤقتة أو مستمرة. نصف عملية التسمية الخاصة بمجموعتنا (حيث يُسمّى كل مقطع فيديو بعلامة واحدة من بين 339 فئة مختلفة للإجراءات أو الأنشطة)، ونحلّل مدى حجمها وتنوعها مقارنةً بغيرها من مجموعات البيانات الكبيرة لفيديوهات التعرف على الإجراءات، ونُقدّم نتائج نماذج أساسية عدّة، تُطبّق بشكل منفصل ومشترك على ثلاث وسائط: المكانية، والزمنية، والصوتية. تم تصميم مجموعة بيانات "لحظات في الزمن" لتغطية واسعة ومتنوعة للأحداث في الوسائط البصرية والصوتية معًا، مما يجعلها تحديًا جديدًا لتطوير نماذج قادرة على التوسع إلى مستوى التعقيد والتفكير المجرّد الذي يُنفّذها الإنسان يوميًا.