التحفيز والإصلاح: تقسيم الإجراءات من خلال التمرير التوسعي وإعادة البناء الزمني
{Sungho Jo Sejoon Huh Daekyum Kim Junyong Park}

الملخص
تهدف التجزئة الفعلية إلى تقسيم مقاطع الفيديو إلى أجزاء تمثل أفعالًا مختلفة. وتركز الدراسات الحديثة على معالجة الاعتماديات طويلة المدى في مقاطع الفيديو الطويلة وغير المُقَصَّة، لكنها ما زالت تعاني من مشكلة التجزئة الزائدة والأداء الثابت نتيجة زيادة تعقيد النموذج. يعالج هذا البحث المشكلات المذكورة من خلال استراتيجية التقسيم والانتصار، والتي تبدأ بتحقيق أعلى دقة ممكنة في تصنيف الإطارات، ثم تقليل أخطاء التجزئة الزائدة. تُطبَّق هذه الاستراتيجية باستخدام شبكة التمرير والإعادة التكوينية (Dilation Passing and Reconstruction Network)، التي تتألف من شبكة التمرير بالتمدد (Dilation Passing Network)، والتي تهدف بشكل رئيسي إلى تعزيز الدقة من خلال نقل المعلومات عبر تمددات مختلفة، وشبكة إعادة التكوين الزمنية (Temporal Reconstruction Network)، التي تقلل من أخطاء التجزئة الزائدة من خلال ترميز وفك ترميز السمات الزمنية الناتجة عن شبكة التمرير بالتمدد. كما نقترح خسارة متوسط المربعات الزمنية الموزونة، التي تُسهم بشكل إضافي في تقليل التجزئة الزائدة. وبناءً على تقييمات أجريت على مجموعات بيانات 50Salads وGTEA وBreakfast، نُظهر أن نموذجنا يحقق نتائج مميزة مقارنة بالنماذج الرائدة الحالية.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| action-segmentation-on-50-salads-1 | DPRN | Acc: 87.2 Edit: 82.0 F1@10%: 87.8 F1@25%: 86.3 F1@50%: 79.4 |
| action-segmentation-on-breakfast-1 | DPRN | Acc: 71.7 Average F1: 67.9 Edit: 75.1 F1@10%: 75.6 F1@25%: 70.5 F1@50%: 57.6 |
| action-segmentation-on-gtea-1 | DPRN | Acc: 82.0 Edit: 90.9 F1@10%: 92.9 F1@25%: 92.0 F1@50%: 82.9 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.