HyperAIHyperAI
منذ 15 أيام

هل نحن حقًا بحاجة إلى التحويلات الزمنية في تقسيم الإجراءات؟

Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan
هل نحن حقًا بحاجة إلى التحويلات الزمنية في تقسيم الإجراءات؟
الملخص

تم تحقيق تقدم كبير في تصنيف الإجراءات، لكن مسألة تقسيم الإجراءات وتمييزها من مقاطع الفيديو الطويلة غير المُعدّلة تظل تحديًا كبيرًا. تتركز معظم الطرق الرائدة حاليًا على تصميم نماذج تعتمد على التحويلات الزمنية (temporal convolutions)، إلا أن المرونة المحدودة لهذه التحويلات وصعوبة نمذجة الاعتماديات الزمنية الطويلة تحد من إمكانات هذه النماذج. وقد تم مؤخرًا استخدام النماذج القائمة على المُحَوِّل (Transformer) في مهام متعددة بفضل قدرتها المُتَعَدِّدة على معالجة التسلسلات وتكيفها، لكن نقص الانحياز الاستقرائي (inductive bias) وقلة الكفاءة في التعامل مع تسلسلات الفيديو الطويلة يحدان من تطبيق المُحَوِّل في تقسيم الإجراءات. في هذه الورقة، نصمم نموذجًا يعتمد بالكامل على المُحَوِّل دون استخدام تحويلات زمنية، وذلك من خلال دمج عينة زمنية، ونسميه "المُحَوِّل-يوف (TUT)"، أي Temporal U-Transformer. تقلل بنية U-Transformer من التعقيد، مع إدخال انحياز استقرائي يُشير إلى أن الإطارات المجاورة أكثر احتمالًا أن تنتمي إلى نفس الفئة، لكن إدخال دقة منخفضة (coarse resolutions) يؤدي إلى تصنيف خاطئ للحدود. لاحظنا أن توزيع التشابه بين إطار الحدود وإطاراته المجاورة يعتمد على ما إذا كان هذا الإطار يمثل بداية أو نهاية قطعة إجرائية. لذلك، نقترح بشكل إضافي دالة خسارة مُدركة للحدود (boundary-aware loss)، تعتمد على توزيع درجات التشابه بين الإطارات المستمدة من وحدات الانتباه، بهدف تعزيز قدرة النموذج على تمييز الحدود. أظهرت التجارب الواسعة فعالية نموذجنا.

هل نحن حقًا بحاجة إلى التحويلات الزمنية في تقسيم الإجراءات؟ | أحدث الأوراق البحثية | HyperAI