منذ 8 أشهر

الملخص

يهدف توطين النشاط الفيديو إلى فهم المحتوى الدلالي في مقاطع الفيديو الطويلة غير المقصوصة واسترجاع الأنشطة ذات الاهتمام. يمكن استخدام الأنشطة المسترجعة مع مواقع بدايتها ونهايتها لإنشاء ملخصات وتحديد الأنشطة الزمنية، إلخ. للأسف، تعلم موقع الحدود الدقيقة لأنشطة الفيديو يعد تحديًا كبيرًا بسبب استمرارية الأنشطة الزمنية وعدم وجود انتقالات واضحة بين الأفعال غالبًا. بالإضافة إلى ذلك، تعريف بداية ونهاية الأحداث هو أمر ذاتي قد يربك النموذج. لحل مشكلة غموض الحدود، نقترح دراسة مشكلة توطين النشاط الفيديو من منظور التقليل من الضوضاء (denoising). بصفة خاصة، نقترح نموذج مشفّر-مفكك (encoder-decoder) باسم DenoiseLoc. أثناء التدريب، يتم توليد مجموعة عشوائية من فترات الأنشطة من البيانات الأساسية بمقياس ضوضاء متحكم فيه. ثم نحاول عكس هذا العملية عن طريق تقليل ضوضاء الحدود، مما يسمح لمحدد الموقع بتوقع الأنشطة بحدود دقيقة ويؤدي إلى سرعة تقارب أسرع. تظهر التجارب أن DenoiseLoc يحقق تقدمًا في عدة مهام لفهم نشاط الفيديو. على سبيل المثال، نلاحظ زيادة بنسبة +12.36% في المتوسط mAP على مجموعة بيانات QV-Highlights وزيادة بنسبة +1.64% في [email protected] على مجموعة بيانات THUMOS'14 مقارنة بالنموذج الأساسي. بالإضافة إلى ذلك، حقق DenoiseLoc أفضل أداء حالي على مجموعتي بيانات TACoS وMAD، ولكن مع عدد أقل بكثير من التوقعات مقارنة بالطرق الحالية الأخرى.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار