تعلم التمثيل المكاني-الزماني ذاتي الإشراف للفيديوهات من خلال التنبؤ بإحصاءات الحركة والمظهر

نتناول مشكلة تعلم تمثيل الفيديو دون استخدام علامات مصحوبة ببيانات البشر. بينما حاولت الجهود السابقة معالجة هذه المشكلة من خلال تصميم مهام ذاتية الإشراف باستخدام بيانات الفيديو، فإن الخصائص المُتعلمة كانت تقتصر على أساس الصورة بصفة منفصلة، مما يجعلها غير مناسبة للكثير من مهام تحليل الفيديو حيث تكون الخصائص المكانية-الزمانية هي السائدة. في هذا البحث، نقترح نهجًا ذاتي الإشراف جديدًا لتعلم الخصائص المكانية-الزمانية لتمثيل الفيديو. مستوحىً من نجاح النهج ذو التيارين في تصنيف الفيديو، نقترح تعلم الخصائص البصرية عن طريق تقدير إحصاءات الحركة والمظهر على الأبعاد المكانية والزمانية، باستخدام بيانات الفيديو كمدخل فقط. تحديدًا، نستخرج مفاهيم إحصائية (منطقة الحركة السريعة واتجاهها الرئيسي المقابل، التنوع اللوني المكاني-الزماني، اللون الرئيسي، إلخ) من أنماط بسيطة في كلٍ من المجالين المكاني والزماني. على عكس الألغاز السابقة التي قد تكون صعبة حتى للبشر حلها، فإن النهج المقترح يتوافق مع العادات البصرية الطبيعية للإنسان وبالتالي يكون سهل الحل. أجرينا العديد من التجارب الواسعة باستخدام C3D (C3D) لتأكيد فعالية النهج المقترح. أظهرت التجارب أن نهجنا يمكن أن يحسن بشكل كبير أداء C3D عند تطبيقه على مهام تصنيف الفيديو. الكود متاح على الرابط: https://github.com/laura-wang/video_repres_mas.请注意,我已经将 "C3D" 保留为英文,因为这是在科技文献中常用的缩写。如果需要将其翻译成阿拉伯语,请告知我具体的翻译方式。