ASQuery: نموذج يعتمد على الاستعلام لتقسيم الإجراءات
بالنسبة لمهمة تقسيم الأفعال الزمنية، يُعالج معظم الأعمال الحالية هذه المهمة على أنها مشكلة تصنيف على مستوى الإطارات. في هذه الورقة، نقترح نموذجًا مباشرًا ولكن فعّالًا يُسمى ASQuery، من خلال تعلّم تمثيل مركزي لكل فئة من فئات الأفعال، مما يحوّل مشكلة التصنيف إلى عملية حساب التشابه بين استفسارات محددة بالفئات وسمات الإطارات. يتم إنشاء هذه التمثيلات المركزية ديناميكيًا من خلال وحدة فك التشفير الخاصة بنا بناءً على نموذج المُحَوِّل (Transformer)، مما يمنحها مرونة وأكثر شمولاً في فهم الفيديو بأكمله. علاوةً على ذلك، نُقدّم لأول مرة مفهوم "استفسار الحدود" (boundary query) لتحسين نتائج التقسيم، مما يسهم في تقليل مشكلة التقسيم الزائد (over-segmentation) المُزعجة. تُظهر نتائج ASQuery أداءً متفوّقًا مقارنةً بالنماذج الحالية الأفضل، حيث حققت تحسينات بنسبة 0.9% و4.1% في المتوسط على معيار الأداء على مجموعتي بيانات عامة للتقسيم الفعلي، وهما Breakfast وAssembly101 على التوالي. تتوفر الشيفرة المصدرية على الرابط التالي: https://github.com/zlngan/ASQuery.