HyperAIHyperAI

Command Palette

Search for a command to run...

تنقية الحدود لتحديد نشاط الفيديو

Mengmeng Xu Mattia Soldan Jialin Gao Shuming Liu Juan-Manuel Pérez-Rúa Bernard Ghanem

الملخص

يهدف توطين النشاط الفيديو إلى فهم المحتوى الدلالي في مقاطع الفيديو الطويلة غير المقصوصة واسترجاع الأنشطة ذات الاهتمام. يمكن استخدام الأنشطة المسترجعة مع مواقع بدايتها ونهايتها لإنشاء ملخصات وتحديد الأنشطة الزمنية، إلخ. للأسف، تعلم موقع الحدود الدقيقة لأنشطة الفيديو يعد تحديًا كبيرًا بسبب استمرارية الأنشطة الزمنية وعدم وجود انتقالات واضحة بين الأفعال غالبًا. بالإضافة إلى ذلك، تعريف بداية ونهاية الأحداث هو أمر ذاتي قد يربك النموذج. لحل مشكلة غموض الحدود، نقترح دراسة مشكلة توطين النشاط الفيديو من منظور التقليل من الضوضاء (denoising). بصفة خاصة، نقترح نموذج مشفّر-مفكك (encoder-decoder) باسم DenoiseLoc. أثناء التدريب، يتم توليد مجموعة عشوائية من فترات الأنشطة من البيانات الأساسية بمقياس ضوضاء متحكم فيه. ثم نحاول عكس هذا العملية عن طريق تقليل ضوضاء الحدود، مما يسمح لمحدد الموقع بتوقع الأنشطة بحدود دقيقة ويؤدي إلى سرعة تقارب أسرع. تظهر التجارب أن DenoiseLoc يحقق تقدمًا في عدة مهام لفهم نشاط الفيديو. على سبيل المثال، نلاحظ زيادة بنسبة +12.36% في المتوسط ​​mAP على مجموعة بيانات QV-Highlights وزيادة بنسبة +1.64% في [email protected] على مجموعة بيانات THUMOS'14 مقارنة بالنموذج الأساسي. بالإضافة إلى ذلك، حقق DenoiseLoc أفضل أداء حالي على مجموعتي بيانات TACoS وMAD، ولكن مع عدد أقل بكثير من التوقعات مقارنة بالطرق الحالية الأخرى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp