HyperAIHyperAI
منذ 16 أيام

التحديد الضعيف للإجراءات باستخدام التعلم متعدد المثيلات بأسلوب تكراري الانتظار-التحديث

Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor Darrell, Huijuan Xu
التحديد الضعيف للإجراءات باستخدام التعلم متعدد المثيلات بأسلوب تكراري الانتظار-التحديث
الملخص

يُعدّ التعرف على الحركات بمساعدة ضعيفة (Weakly-supervised action localization) عملية تدريب نموذج لتحديد أجزاء الحركات في الفيديو، وذلك باستخدام علامة الفيديو فقط دون تسمية زمنية دقيقة للحركات. يمكن حل هذه المشكلة ضمن إطار التعلم متعدد الأمثلة (Multiple Instance Learning - MIL)، حيث يحتوي كيس (الفيديو) على عدة أمثلة (أجزاء الحركات). وبما أن العلامة المعطاة تخص الكيس فقط، فإن التحدي الرئيسي يكمن في تحديد أي الأمثلة الأساسية داخل الكيس هي المسؤولة عن تفعيل العلامة الخاصة بالكيس. تعتمد معظم النماذج السابقة على مناهج قائمة على الانتباه (attention-based)، حيث تُطبّق الانتباه لاستخلاص تمثيل الكيس من الأمثلة، ثم تُدرّب النموذج من خلال تصنيف الكيس. ومع ذلك، فإن هذه النماذج تنتهك بشكل غير مباشر افتراض MIL، الذي ينص على أن تكون الأمثلة في الكيسيات السلبية متساوية في السلبية. في هذه الدراسة، نُعدّل تعيين الأمثلة الأساسية كمتغير خفي، ونستخدم إطار عمل التوقع-التحديث (Expectation-Maximization - EM). نُحدّد نوعين من استراتيجيات إنشاء التسميات الوهمية (pseudo-labels) لتمثيل مراحل التوقع (E) والتحديث (M)، ونُحسّن بشكل تكراري حدّ التقدير الأدنى للإحتمالية. نُظهر أن نهجنا EM-MIL يُمثّل بدقة أكبر كل من الهدف التعليمي وافتراضات MIL. وحقق أداءً متفوّقًا على مستوى الحالة الحالية (state-of-the-art) في معيارين شهيرين: THUMOS14 وActivityNet1.2.

التحديد الضعيف للإجراءات باستخدام التعلم متعدد المثيلات بأسلوب تكراري الانتظار-التحديث | أحدث الأوراق البحثية | HyperAI