الشبكات المتسلسلة المستشعرة للحدود لتقسيم الأفعال الزمنية

تحديد أجزاء السلوك البشري في مقاطع فيديو غير منقّحة لا يزال يشكل تحديًا بسبب عدم وضوح الحدود ومشاكل التجزئة الزائدة. لمعالجة هذه المشكلات، نقدّم شبكة تسلسلية واعية بالحدود جديدة من خلال إدخال مكوّنين جديدين. أولاً، نطوّر نموذجًا تسلسليًا جديدًا يُسمى "المرحلة التسلسلية" (Stage Cascade)، الذي يمكّن نموذجنا من امتلاك مجالات استقبال تكيفية وتوقعات أكثر ثقة للإطارات غير الواضحة. ثانيًا، نصمم عملية تمهيد عامة ومقنعة تُسمى "تجميع الحواجز المحلية" (local barrier pooling)، التي تُستخدم لجمع التوقعات المحلية من خلال الاستفادة من معلومات الحدود الدلالية. علاوةً على ذلك، يمكن تدريب هذين المكوّنين معًا بشكل تكاملي ومتسلسل (end-to-end). أجرينا تجارب على ثلاث مجموعات بيانات صعبة: 50Salads، GTEA، وقاعدة بيانات Breakfast، وبيّنت النتائج أن إطارنا يتفوّق بشكل ملحوظ على أحدث الطرق المطورة حاليًا. الكود متاح على الرابط: https://github.com/MCG-NJU/BCN.