تحليل كبير الحجم لتعلم تمثيل الفيديو ذاتي الإشراف

التعلم الذاتي بدون إشراف هو طريقة فعالة للتدريب المسبق للنماذج دون تسمية البيانات، خاصة في مجال الفيديو حيث تكون عملية التسمية مكلفة. تعمل الدراسات الحالية في مجال الفيديو التي تعتمد على التعلم الذاتي بدون إشراف باستخدام ترتيبات تجريبية مختلفة لبيان فعاليتها، مما يجعل المقارنة بين الأساليب صعبة في غياب معيار قياسي. في هذا العمل، نقدم أولاً معيارًا يتيح المقارنة بين الأساليب الحالية على أساس واحد. ثانيًا، ندرس خمسة جوانب مختلفة مهمة للتعلم الذاتي بدون إشراف في الفيديو؛ وهي: 1) حجم مجموعة البيانات، 2) التعقيد، 3) توزيع البيانات، 4) ضوضاء البيانات، و5) تحليل الخصائص (الفEATURE). لتسهيل هذه الدراسة، نركز على سبع طرق مختلفة مع سبع هياكل شبكة مختلفة ونقوم بمجموعة واسعة من التجارب على خمس مجموعات بيانات مختلفة مع تقييم لمهمتين مختلفتين بعد التدريب. نقدم العديد من الرؤى المثيرة للاهتمام من هذه الدراسة والتي تغطي خصائص مختلفة لمجموعات البيانات الأولية والهدفية ومهمات السياق الأولي (pretext-tasks) وهياكل النماذج وغيرها. بالإضافة إلى ذلك، نضع بعض هذه الرؤى تحت الاختبار الحقيقي ونقترح أسلوبًا يتطلب كمية محدودة من بيانات التدريب ويتفوق على الأساليب الرائدة حاليًا التي تستعمل عشرة أضعاف بيانات التدريب الأولي. نعتقد أن هذا العمل سيفتح الطريق أمام الباحثين لتحقيق فهم أفضل للمهام الأولية ذاتية الإشراف في تعلم تمثيل الفيديو.