{Shenglan Liu YuHan Wang Li Xu Jie Zhu Lianyu Hu Lin Feng Kaiyuan Liu Zhuben Dong Yunheng Li}
الملخص
نظرًا لغموض الحدود ومشكلة التجزئة الزائدة، يبقى تحديد جميع الإطارات في مقاطع الفيديو الطويلة غير المُقَصَّة تحديًا. ولحل هذه المشكلات، نقدّم شبكة ذات خطوتين فعّالة (ETSN) مكوّنة من مكوّنين. يتضمن الخطوة الأولى شبكة الهرم الزمني الفعّالة للسلسلة (ETSPNet)، التي تلتقط الخصائص على مستوى الإطار من حيث الموضع المحلي والعام، وتوفر تنبؤات دقيقة بحدود التجزئة. أما الخطوة الثانية فهي منهجية غير مراقبة جديدة تُسمّى "قمع بور المحلي" (LBS)، التي تقلل بشكل كبير من أخطاء التجزئة الزائدة. وقد أظهرت تقييماتنا التجريبية على مجموعات معايير متعددة، بما في ذلك 50Salads وGTEA وBreakfast، أن ETSN تتفوّق على أحدث الطرق المُتّبعة بفارق كبير.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| action-segmentation-on-50-salads-1 | ETSN | Acc: 82.0 Edit: 78.8 F1@10%: 85.2 F1@25%: 83.9 F1@50%: 75.4 |
| action-segmentation-on-breakfast-1 | ETSN | Acc: 67.8 Average F1: 66.4 Edit: 70.3 F1@10%: 74.0 F1@25%: 69.0 F1@50%: 56.2 |
| action-segmentation-on-gtea-1 | ETSN | Acc: 78.2 Edit: 86.2 F1@10%: 91.1 F1@25%: 90.0 F1@50%: 77.9 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.