تعلم تمثيل الفيديو المكاني-الزمني بالمقارنة

نقدم طريقة تعلم تمثيل الفيديو التبايني ذاتي الإشراف (CVRL) لتعلم التمثيلات البصرية المكانية والزمانية من مقاطع الفيديو غير المصنفة. يتم تعلم هذه التمثيلات باستخدام خسارة تباينية، حيث يتم جذب مقطعين مُحسَّنين من نفس الفيديو القصير معًا في فضاء التضمين، بينما يتم دفع المقاطع من فيديوهات مختلفة بعيدًا. ندرس ما يجعل البيانات المُحسَّنة جيدة للتعلم الذاتي المُشرف على الفيديو ونجد أن المعلومات المكانية والزمانية ضرورية. نصمم بعناية بيانات مُحسَّنة تتضمن مؤشرات مكانية وزمانية. بشكل ملموس، نقترح طريقة تحسين مكانية ثابتة زمنيًا لفرض تحسينات مكانية قوية على كل إطار من إطارات الفيديو مع الحفاظ على الثبات الزماني بين الإطارات. كما نقترح طريقة تحسين زماني قائمة على العينة لتجنب فرض ثبات مفرط على المقاطع التي تكون بعيدة زمنيًا. على مجموعة بيانات Kinetics-600، يحقق تصنيف خطي مدرب على التمثيلات التي تم تعلمها بواسطة CVRL دقة 70.4% في المرتبة الأولى باستخدام هيكل 3D-ResNet-50 (R3D-50)، مما يتفوق على التدريب السابق المشرف عليه من ImageNet بنسبة 15.7% وعلى التدريب السابق غير المشرف عليه من SimCLR بنسبة 18.8% باستخدام نفس R3D-50 المُنفوخ. يمكن تحسين أداء CVRL أكثر إلى 72.9% باستخدام هيكل R3D-152 (مضاعفة الفلترات بمقدار 2)، مما يقلل بشكل كبير الفجوة بين تعلم التمثيلات الفيديوية غير المشرف عليها والمشرف عليها. سيتم توفير كودنا ونماذجنا في https://github.com/tensorflow/models/tree/master/official/.