توسيع آفاقك للتعلم الذاتي للمواد المصورة

معظم طرق التعلم الذاتي بدون إشراف تُدرب على مواءمة تمثيلات وجهتي نظر مستقلتين من البيانات. الأساليب الرائدة في مجال الفيديو تستلهم تقنيات الصور، حيث يتم استخراج هاتين الوجهتين بقص وزيادة النتائج المقصوصة بشكل مشابه. ومع ذلك، فإن هذه الطرق تغفل عن عنصر حاسم في مجال الفيديو: الزمن. نقدم BraVe، وهو إطار للتعلم الذاتي بدون إشراف مخصص للفيديو. في BraVe، يكون أحد وجهي النظر لديه حق الوصول إلى نافذة زمنية ضيقة من الفيديو بينما يمتلك الآخر حق الوصول الواسع إلى محتوى الفيديو. تتعلم نماذجنا كيفية التعميم من النظرة الضيقة إلى المحتوى العام للفيديو. بالإضافة إلى ذلك، يقوم BraVe بمعالجة وجهتي النظر باستخدام عموديات مختلفة (backbones)، مما يمكّن استخدام زيادة بديلة أو أنماط مثل الجريان البصري (optical flow)، الإطارات RGB المُقَدَّمة عشوائيًا (randomly convolved RGB frames)، الصوت أو مجموعاتها. نثبت أن BraVe يحقق أفضل النتائج في التعلم الذاتي بدون إشراف لتمثيل البيانات على مقاييس تصنيف الفيديو والصوت القياسية بما في ذلك UCF101، HMDB51، Kinetics، ESC-50 وAudioSet.