التعشيق والتعلم: التعلم غير المشرف باستخدام التحقق من الترتيب الزمني

في هذا البحث، نقدم منهجًا لتعلم تمثيل بصري من الإشارات المكانية-الزمانية الخام في مقاطع الفيديو. يتم تعلم هذا التمثيل دون إشراف من العلامات الدلالية. نصيغ طريقتنا كمهمة تحقق تتابعي غير مشرف عليها، أي أننا نحدد ما إذا كانت سلسلة من الإطارات في مقطع فيديو مرتبة بالترتيب الزمني الصحيح. باستخدام هذه المهمة البسيطة وعدم وجود علامات دلالية، نتعلم تمثيلًا بصريًا قويًا باستخدام شبكة عصبية تقنية (Convolutional Neural Network - CNN). يحتوي هذا التمثيل على معلومات مكملة لتلك التي يتم تعلمها من مجموعات الصور المشرف عليها مثل ImageNet. تظهر النتائج النوعية أن طريقتنا تستوعب المعلومات المتغيرة زمنيًا، مثل وضع الإنسان. عند استخدامه كتدريب أولي لتمييز الأفعال، تعطي طريقتنا مكاسب كبيرة مقارنة بتعلم بدون بيانات خارجية على مجموعات الاختبار القياسية مثل UCF101 و HMDB51. للدلالة على حساسيتها لوضع الإنسان، نعرض نتائج تقدير الوضع على مجموعتي البيانات FLIC و MPII والتي تكون تنافسية أو أفضل من الطرق التي تستخدم إشرافًا أكبر بكثير. يمكن دمج طريقتنا مع التمثيلات المشرف عليها لتقديم زيادة إضافية في الدقة.