HyperAIHyperAI
منذ 17 أيام

شبكة استعلام التركيز الزمني للتعرف الفعّال على الفيديو

Boyang Xia, Zhihao Wang, Wenhao Wu, Haoran Wang, Jungong Han
شبكة استعلام التركيز الزمني للتعرف الفعّال على الفيديو
الملخص

التعرف الفعّال على الفيديو يُعد موضوعًا بحثيًا مُتنامٍ نظرًا للنمو الهائل للبيانات متعددة الوسائط على الإنترنت والأجهزة المحمولة. تعتمد معظم الطرق الحالية على اختيار الإطارات البارزة دون أخذ بعين الاعتبار درجات البارزية المحددة للصنف، مما يؤدي إلى إهمال العلاقة الضمنية بين بارزية الإطار وانتمائه إلى فئة معينة. وللتخفيف من هذه المشكلة، نُقدّم آلية جديدة تُسمى "استفسار البارزية الزمنية" (TSQ)، التي تُضفي معلومات محددة لكل صنف لتوفير مؤشرات دقيقة لقياس البارزية. بشكل محدد، نُعدّل عملية قياس البارزية المحددة للصنف كمهمة استفسار-استجابة. لكل صنف، نستخدم النمط الشائع الخاص به كاستفسار، والإطارات الأكثر بارزية تُستجيب له. ثم تُستخدم التشابهات المحسوبة كدرجات بارزية للإطارات. لتحقيق ذلك، نقترح شبكة تُسمى "شبكة استفسار البارزية الزمنية" (TSQNet)، تتضمن نسختين من آلية TSQ تعتمدان على التشابهات البصرية وعلاقات الحدث-الكائن النصية. بعد ذلك، تُطبّق تفاعلات بين الوسائط لتعزيز تبادل المعلومات بينهما. وأخيرًا، نستخدم درجات البارزية المحددة للصنف من أبرز الفئات التي تولّدت بواسطة الوسيلتين لإجراء اختيار الإطارات البارزة. أظهرت التجارب الواسعة فعالية طريقة العمل لدينا، حيث حققت نتائج متفوقة على مجموعة بيانات ActivityNet وFCVID وMini-Kinetics. يمكن زيارة صفحة المشروع على الرابط التالي: https://lawrencexia2008.github.io/projects/tsqnet.

شبكة استعلام التركيز الزمني للتعرف الفعّال على الفيديو | أحدث الأوراق البحثية | HyperAI