HyperAIHyperAI
منذ 11 أيام

PointTAD: الكشف الزمني عن الإجراءات متعدد التصنيفات باستخدام نقاط استعلام قابلة للتعلم

Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang
PointTAD: الكشف الزمني عن الإجراءات متعدد التصنيفات باستخدام نقاط استعلام قابلة للتعلم
الملخص

عادةً ما تتعامل الكشف الزمني للإجراءات التقليدي (TAD) مع مقاطع الفيديو غير المُقطَّعة التي تحتوي على عدد قليل من حالات الإجراءات من تصنيف واحد فقط (مثل ActivityNet و THUMOS). ومع ذلك، قد يكون هذا الإطار غير واقعي، حيث يظهر غالبًا تداخل بين فئات مختلفة من الإجراءات في الممارسة العملية. في هذا البحث، نركّز على مهمة الكشف الزمني متعدد التصنيفات (Multi-label TAD)، التي تهدف إلى تحديد جميع حالات الإجراءات في مقطع فيديو غير مُقطَّع متعدد التصنيفات. يُعد الكشف الزمني متعدد التصنيفات أكثر تحديًا لأنه يتطلب تمييزًا دقيقًا بين الفئات داخل مقطع فيديو واحد، بالإضافة إلى تحديد دقيق لحالات الإجراءات المتداخلة. وللتخفيف من هذه التحديات، نوسع نموذج الكشف القائم على الاستعلامات النادرة من TAD التقليدي، ونقدّم إطار عمل جديد يُسمى PointTAD للكشف الزمني متعدد التصنيفات. بشكل خاص، يُقدّم PointTAD مجموعة صغيرة من نقاط الاستعلام القابلة للتعلم لتمثيل الإطارات المهمة لكل حالة إجراء. يوفر هذا التمثيل القائم على النقاط آلية مرنة لتحديد الإطارات التمييزية عند الحدود، وكذلك الإطارات المهمة داخل الإجراء. علاوةً على ذلك، نُنفّذ عملية تفكيك الإجراء باستخدام وحدة التفاعل متعددة المستويات (Multi-level Interactive Module) لالتقاط المعاني الإجرائية على مستوى النقطة وعلى مستوى الحالة. وأخيرًا، يستخدم PointTAD إطارًا قابلاً للتدريب من النهاية إلى النهاية، ويعتمد فقط على المدخلات RGB، مما يسهل عملية النشر. قُمنا بتقييم طريقة المقترحة على بحثين شهيرين، وقمنا بإدخال مقياس جديد يُسمى detection-mAP خصيصًا للكشف متعدد التصنيفات. أظهر نموذجنا تفوقًا كبيرًا على جميع الطرق السابقة وفقًا لمقياس detection-mAP، كما حقق نتائج واعدة أيضًا وفقًا لمقياس segmentation-mAP. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/MCG-NJU/PointTAD.

PointTAD: الكشف الزمني عن الإجراءات متعدد التصنيفات باستخدام نقاط استعلام قابلة للتعلم | أحدث الأوراق البحثية | HyperAI