الوقت المتصور للاعتراف بالحركات المعقدة

يركز هذا البحث على الجوانب الزمنية لتحديد الأنشطة البشرية في مقاطع الفيديو؛ وهي معلومة بصرية مهمة تم تجاهلها لفترة طويلة. نعيد النظر في التعريف التقليدي للنشاط ونقتصر على تعريفه كـ "العملية المعقدة": مجموعة من الأنشطة الفردية ذات النمط الزمني الضعيف التي تخدم غرضًا معينًا.الأعمال المرتبطة تستخدم التوافقيات المكانية-الزمنية ثلاثية الأبعاد بحجم نواة ثابت، وهو ما يكون صارمًا جدًا بحيث لا يمكنه التقاط التنوع في المدى الزمني لأنشطة معقدة، كما أنه قصير جدًا بالنسبة للنمذجة الزمنية على مدى طويل. بالمقابل، نحن نستخدم التوافقيات الزمنية متعددة المقاييس، ونقوم بتقليل تعقيد التوافقيات ثلاثية الأبعاد. النتيجة هي طبقات Timeception (توافقيات الوقت)، والتي تحلل الأنماط الزمنية الدقيقة التي تكون أطول بمقدار 8 مرات من أفضل الأعمال المرتبطة. نتيجة لذلك، حققت Timeception دقة مثيرة للإعجاب في تحديد الأنشطة البشرية في مجموعات بيانات Charades وBreakfast Actions وMultiTHUMOS. بالإضافة إلى ذلك، أظهرنا أن Timeception تتعلم الارتباطات الزمنية على مدى طويل وتتحمل الاختلاف في المدى الزمني لأنشطة معقدة.