التعلم البديل باستخدام ترتيب الأفعال العشوائي للتقسيم غير المشرف للأفعال

يتناول هذا البحث تقسيم الأنشطة دون إشراف. تلتقط الدراسات السابقة البنية الزمنية على مستوى الإطار للفيديوهات من خلال تمثيل ميزات يشفر مواقع الإطارات الزمنية في الفيديو. نحن نطور هذه الدراسات السابقة بتعلم ذاتي جديد (Self-Supervised Learning - SSL) لتمثيل الميزات الذي يأخذ بعين الاعتبار كلًا من بنية الإطارات والأنشطة في الفيديوهات. يقوم تعلمنا الذاتي بتدريب شبكة عصبية متكررة (RNN) على التعرف على سلاسل الأنشطة الإيجابية والسالبة، ويُستخدم طبقة الخفية للشبكة العصبية المتكررة كتمثيل ميزات جديد على مستوى النشاط. تتكون السلاسل الإيجابية والسالبة من أقسام الأنشطة المستخرجة من الفيديوهات، حيث تحترم السلاسل الإيجابية ترتيبها الزمني في الفيديو، بينما يتم ترتيب السلاسل السالبة بشكل عشوائي. نظرًا لعدم توفر إشراف على الأنشطة وحاجة تعلمنا الذاتي للوصول إلى أقسام الأنشطة، نحدد نموذج خفي ماركوفي (HMM) يُمثل أطوال الأنشطة بشكل صريح، ونستنتج تقسيم النشاط الأكثر احتمالًا باستخدام خوارزمية فيتربي (Viterbi Algorithm). يتم استخدام التقسيم النشطي الناتج كحقيقة أرضية زائفة لتقييم تمثيل الميزات الخاص بنا على مستوى النشاط لتحديث نموذج HMM. نتبادل الخطوات المذكورة أعلاه ضمن إطار EM المعمم، مما يضمن التقارب. قدمت تقييمتنا على مجموعات البيانات Breakfast و YouTube Instructions و 50Salads نتائج أفضل من تلك التي حققها الحالة الحالية للتقنية (State of the Art).