تنقية الحدود لتحديد نشاط الفيديو

يهدف توطين النشاط الفيديو إلى فهم المحتوى الدلالي في مقاطع الفيديو الطويلة غير المقصوصة واسترجاع الأنشطة ذات الاهتمام. يمكن استخدام الأنشطة المسترجعة مع مواقع بدايتها ونهايتها لإنشاء ملخصات وتحديد الأنشطة الزمنية، إلخ. للأسف، تعلم موقع الحدود الدقيقة لأنشطة الفيديو يعد تحديًا كبيرًا بسبب استمرارية الأنشطة الزمنية وعدم وجود انتقالات واضحة بين الأفعال غالبًا. بالإضافة إلى ذلك، تعريف بداية ونهاية الأحداث هو أمر ذاتي قد يربك النموذج. لحل مشكلة غموض الحدود، نقترح دراسة مشكلة توطين النشاط الفيديو من منظور التقليل من الضوضاء (denoising). بصفة خاصة، نقترح نموذج مشفّر-مفكك (encoder-decoder) باسم DenoiseLoc. أثناء التدريب، يتم توليد مجموعة عشوائية من فترات الأنشطة من البيانات الأساسية بمقياس ضوضاء متحكم فيه. ثم نحاول عكس هذا العملية عن طريق تقليل ضوضاء الحدود، مما يسمح لمحدد الموقع بتوقع الأنشطة بحدود دقيقة ويؤدي إلى سرعة تقارب أسرع. تظهر التجارب أن DenoiseLoc يحقق تقدمًا في عدة مهام لفهم نشاط الفيديو. على سبيل المثال، نلاحظ زيادة بنسبة +12.36% في المتوسط mAP على مجموعة بيانات QV-Highlights وزيادة بنسبة +1.64% في [email protected] على مجموعة بيانات THUMOS'14 مقارنة بالنموذج الأساسي. بالإضافة إلى ذلك، حقق DenoiseLoc أفضل أداء حالي على مجموعتي بيانات TACoS وMAD، ولكن مع عدد أقل بكثير من التوقعات مقارنة بالطرق الحالية الأخرى.