التعلم غير المشرف لتصنيفات الأفعال باستخدام التضمين الزمني المستمر

لقد حظي مهمة الكشف عن الأحداث وتقسيمها زمنياً في مقاطع الفيديو غير المقصوصة باهتمام متزايد مؤخراً. أحد المشكلات في هذا السياق ينشأ من الحاجة إلى تعريف وتسمية حدود الأحداث لإنشاء التوضيحات اللازمة للتدريب، وهو ما يتطلب الكثير من الوقت والتكلفة. لمعالجة هذه المشكلة، نقترح نهجًا غير مشرف لتعلم فئات الأحداث من مقاطع الفيديو غير المقصوصة. لهذا الغرض، نستخدم تمثيلًا زمنيًا مستمرًا لميزات الإطارات لتستفيد من الطبيعة التسلسلية لأنشطة الفيديو. بناءً على المساحة الخفية التي أنشأتها هذه العملية، نحدد مجموعات من المقاطع الزمنية عبر جميع مقاطع الفيديو والتي تتوافق مع فئات أحداث ذات معنى سيميائي. يتم تقييم النهج على ثلاثة مجموعات بيانات صعبة، وهي مجموعة بيانات الإفطار (Breakfast dataset)، ومجموعة بيانات التعليمات على يوتيوب (YouTube Instructions)، ومجموعة بيانات الـ 50 سلطة (50Salads dataset). بينما افترضت الأعمال السابقة أن مقاطع الفيديو تحتوي على نفس النشاط العالي المستوى، فإننا نظهر أيضًا أن النهج المقترح يمكن تطبيقه في إعداد أكثر عمومية حيث يكون محتوى مقاطع الفيديو غير معروف.