تحسين التحديد الزمني للإجراءات: نمذجة متقدمة S6 مع آلية دورية

تمثّل مهمة تحديد الأفعال الزمنية (TAL) مهمة حاسمة في تحليل الفيديو، حيث تهدف إلى تحديد أوقات البدء والانتهاء الدقيقة للإجراءات. تواجه الطرق الحالية مثل الشبكات العصبية التلافيفية (CNNs)، والشبكات العصبية التكرارية (RNNs)، والشبكات العصبية الرسومية (GCNs)، والمحولات (Transformers) قيودًا في التقاط الاعتماديات طويلة المدى والسببية الزمنية. وللتغلب على هذه التحديات، نقترح معمارية جديدة لـ TAL تعتمد على نموذج الفضاء الحالة الاختياري (S6). يدمج نهجنا بلوك S6 الثنائي المُجمّع للسمات، وهيكل S6 الثنائي المزدوج، وآلية تكرارية لتعزيز نمذجة الاعتماديات الزمنية والمحورية دون زيادة تعقيد المعلمات. أظهرت التجارب الواسعة على مجموعات بيانات معيارية نتائج رائدة في مجالها، مع تحقيق معدلات دقة متوسطة (mAP) تبلغ 74.2% على مجموعة THUMOS-14، و42.9% على ActivityNet، و29.6% على FineAction، و45.8% على HACS. وتم تأكيد فعالية طريقة العمل من خلال دراسات تحليلية (أبليشن)، حيث أظهرت أن الهيكل الثنائي في وحدة البداية (Stem module) والآلية التكرارية تتفوق على الطرق التقليدية. تُظهر نتائجنا الإمكانات الكامنة لنموذج S6 في مهام TAL، ممهدة الطريق أمام أبحاث مستقبلية في هذا المجال.