التقسيم الفعّال للإجراءات الزمنية عبر التصويت القائم على الاستعلام المُدرك للحدود

رغم التحسن في أداء التجزئة الزمنية للإجراءات (TAS) في السنوات الأخيرة، فإن تحقيق نتائج واعدة غالبًا ما يترافق مع تكلفة حسابية عالية ناتجة عن المدخلات الكثيفة، والهياكل النموذجية المعقدة، ومتطلبات ما بعد المعالجة المكثفة من حيث الموارد. ولتحسين الكفاءة مع الحفاظ على الأداء، نقدّم منظورًا جديدًا يركّز على التصنيف حسب القطعة. من خلال استغلال قدرات نماذج التحويل (Transformers)، نقوم بتقسيم كل قطعة في الفيديو إلى رمز (Token) فردي، مزود بقدرة تلقائية على التجزئة الفردية. ولتحقيق تجزئة إجرائية فعّالة، نقدّم نموذج BaFormer، وهو شبكة تحويلية واعية بالحدود. يعتمد النموذج على استعلامات فردية لتحقيق التجزئة الفردية، واستعلامًا عالميًا للتنبؤ بالحدود دون ارتباط بفئة معينة، مما يُنتج اقتراحاتًا متصلة للفترات الزمنية. أثناء الاستدلال، يستخدم BaFormer استراتيجية تصويت بسيطة ولكنها فعّالة لتصنيف القطع بناءً على التجزئة الفردية. وبما أنه نموذج أحادي المرحلة، فإن BaFormer يقلل بشكل كبير من التكلفة الحسابية، حيث يستخدم فقط 6٪ من زمن التشغيل مقارنةً بالمنهجية المتقدمة حاليًا (DiffAct)، مع تحقيق دقة أفضل أو مماثلة على عدة معايير شهيرة. يمكن الوصول إلى الكود الخاص بهذا المشروع بشكل عام عبر الرابط التالي: https://github.com/peiyao-w/BaFormer.