HyperAIHyperAI
منذ 11 أيام

شبكة التوافق عبر الوسائط للتحديد الزمني للإجراءات بوساطة مراقبة ضعيفة

Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, Wei-Shi Zheng
شبكة التوافق عبر الوسائط للتحديد الزمني للإجراءات بوساطة مراقبة ضعيفة
الملخص

تُعد مهمة تحديد الحدث الزمني المُدرَّس ضعيفًا (WS-TAL) مهمة صعبة تهدف إلى تحديد حالات الأحداث في الفيديو المعطى باستخدام مراقبة على مستوى الفيديو فقط. في الدراسات السابقة، تم استخدام كلا من ميزات المظهر والحركة، ولكن لم تُستخدم هذه الميزات بطريقة مناسبة، بل تم تطبيق تجميع بسيط أو دمج على مستوى الدرجات. في هذا العمل، نجادل بأن الميزات المستخرجة من المستخرج المُدرَّب مسبقًا، مثل I3D، ليست ميزات مخصصة لمهام WS-TAL، وبالتالي يُعد إعادة ضبط الميزات ضروريًا لتقليل التكرار غير المرتبط بالمهام. لذلك، نقترح شبكة اتساق عبر الوسائط (CO2-Net) لمعالجة هذه المشكلة. في CO2-Net، نُقدِّم بشكل رئيسي وحدتين متماثلتين من وحدات الاتساق عبر الوسائط المقترحة (CCM)، والتي تُصمم آلية انتباه عبر الوسائط لتصفية التكرار غير المرتبط بالمهام باستخدام المعلومات الشاملة من الوسائط الأساسية والمعلومات المحلية عبر الوسائط من الوسائط المساعدة. علاوةً على ذلك، نُعامل الأوزان الانتباه المستمدة من كل وحدة CCM كأهداف افتراضية للأوزان الانتباه المستمدة من الوحدة الأخرى، بهدف الحفاظ على الاتساق بين التنبؤات المستمدة من الوحدتين، مما يشكل نمطًا تعلمًا تبادليًا. أخيرًا، أجرينا تجارب واسعة على مجموعتي بيانات شائعتين لتحديد الحدث الزمني، وهما THUMOS14 وActivityNet1.2، لاختبار طريقة العمل وتحقيق نتائج متقدمة على مستوى الحالة الحالية. تُظهر النتائج التجريبية أن وحدة الاتساق عبر الوسائط المقترحة قادرة على إنتاج ميزات أكثر تمثيلية لتحديد الحدث الزمني.