Command Palette
Search for a command to run...
التحديد الضعيف للإجراءات باستخدام التعلم متعدد المثيلات بأسلوب تكراري الانتظار-التحديث
التحديد الضعيف للإجراءات باستخدام التعلم متعدد المثيلات بأسلوب تكراري الانتظار-التحديث
Zhekun Luo Devin Guillory Baifeng Shi Wei Ke Fang Wan Trevor Darrell Huijuan Xu
الملخص
يُعدّ التعرف على الحركات بمساعدة ضعيفة (Weakly-supervised action localization) عملية تدريب نموذج لتحديد أجزاء الحركات في الفيديو، وذلك باستخدام علامة الفيديو فقط دون تسمية زمنية دقيقة للحركات. يمكن حل هذه المشكلة ضمن إطار التعلم متعدد الأمثلة (Multiple Instance Learning - MIL)، حيث يحتوي كيس (الفيديو) على عدة أمثلة (أجزاء الحركات). وبما أن العلامة المعطاة تخص الكيس فقط، فإن التحدي الرئيسي يكمن في تحديد أي الأمثلة الأساسية داخل الكيس هي المسؤولة عن تفعيل العلامة الخاصة بالكيس. تعتمد معظم النماذج السابقة على مناهج قائمة على الانتباه (attention-based)، حيث تُطبّق الانتباه لاستخلاص تمثيل الكيس من الأمثلة، ثم تُدرّب النموذج من خلال تصنيف الكيس. ومع ذلك، فإن هذه النماذج تنتهك بشكل غير مباشر افتراض MIL، الذي ينص على أن تكون الأمثلة في الكيسيات السلبية متساوية في السلبية. في هذه الدراسة، نُعدّل تعيين الأمثلة الأساسية كمتغير خفي، ونستخدم إطار عمل التوقع-التحديث (Expectation-Maximization - EM). نُحدّد نوعين من استراتيجيات إنشاء التسميات الوهمية (pseudo-labels) لتمثيل مراحل التوقع (E) والتحديث (M)، ونُحسّن بشكل تكراري حدّ التقدير الأدنى للإحتمالية. نُظهر أن نهجنا EM-MIL يُمثّل بدقة أكبر كل من الهدف التعليمي وافتراضات MIL. وحقق أداءً متفوّقًا على مستوى الحالة الحالية (state-of-the-art) في معيارين شهيرين: THUMOS14 وActivityNet1.2.