Command Palette
Search for a command to run...
تعلم التمثيل الفيديوي ذاتي الإشراف باستخدام التباين النموذجي عبر التدفقات
تعلم التمثيل الفيديوي ذاتي الإشراف باستخدام التباين النموذجي عبر التدفقات
Martine Toering; Ioannis Gatopoulos; Maarten Stol; Vincent Tao Hu
الملخص
تقنيات التعلم التبايني على مستوى النماذج، التي تعتمد على زيادة البيانات ودالة خسارة تباينية، حققت نجاحًا كبيرًا في مجال تعلم تمثيلات الصور. ومع ذلك، فهي غير مناسبة لاستغلال البنية الديناميكية الغنية للفيديو، حيث يتم تنفيذ العمليات على العديد من النماذج المعززة. في هذا البحث، نقترح "التباين النموذجي عبر مجرى الفيديو" (Video Cross-Stream Prototypical Contrasting)، وهو طريقة جديدة تقوم بتوقع تعيينات نموذجية متسقة من كل من وجهات النظرRGB والتدفق البصري (optical flow)، مع العمل على مجموعات العينات. بصفة خاصة، نقوم بتبديل عملية الأمثلة؛ أثناء تحسين أحد المجارِي، يتم رسم جميع وجهات النظر إلى مجموعة واحدة من متجهات نموذج المجرى. يتم توقع كل واحد من هذه التعيينات باستخدام جميع وجهات النظر باستثناء الوجهة التي تتطابق مع التوقع، مما يدفع التمثيلات إلى الاقتراب أكثر من النماذج المخصصة لها. نتيجة لذلك، يتم تعلم تمثيلات فيديو أكثر كفاءة تحتوي على معلومات الحركة بشكل متأصل، دون الحاجة إلى حساب التدفق البصري صراحةً خلال الاستدلال. حققنا أفضل النتائج الحالية في استرجاع الفيديو الأقرب جارٍ وتعرف الإجراءات، حيث تفوقنا على أفضل النتائج السابقة بنسبة +3.2% على UCF101 باستخدام هيكل S3D (دقة 90.5% في المرتبة الأولى)، وبالنسبة +7.2% على UCF101 و+15.1% على HMDB51 باستخدام هيكل R(2+1)D.