HyperAIHyperAI
منذ 11 أيام

ديوول ديتيرز للكشف متعدد التسميات عن الأفعال الزمنية

Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang
ديوول ديتيرز للكشف متعدد التسميات عن الأفعال الزمنية
الملخص

كشف الحدث الزمني (TAD) يهدف إلى تحديد حدود الأفعال والفئة المرتبطة بها داخل مقاطع الفيديو غير المُقَصَّة. مستوحى من النجاح الذي حققه نموذج DETR في الكشف عن الأجسام، اعتمدت عدة طرق هيكلية قائمة على الاستفسار (query-based) على مهمة TAD. ومع ذلك، فإن هذه النماذج اتبعت بشكل رئيسي نموذج DETR في التنبؤ بالأفعال على مستوى المثيلات (أي تحديد كل فعل من خلال نقطة وسطه)، مما أدى إلى تحسين غير مثالي في تحديد الحدود الزمنية. ولحل هذه المشكلة، نقترح إطارًا جديدًا لـ TAD يعتمد على الاستفسار على مستويين، يُسمى DualDETR، لاكتشاف الأفعال من منظورين: مستوى المثيلات ومستوى الحدود. ونظرًا لأن عملية التفكيك (decoding) على مستويات مختلفة تتطلب معاني ذات حجم دلالي مختلف، نقدم هيكلًا ثنائي الفرع (two-branch decoding structure) يُنشئ عمليات تفكيك مميزة لكل مستوى، مما يسهل التقاط الدلائل الزمنية والمعاني بشكل صريح على كل مستوى. وعلى أساس التصميم الثنائي الفرع، نقدم استراتيجية موحدة لتهيئة الاستفسارات (joint query initialization) لمحاذاة الاستفسارات من المستويين معًا. وبشكل محدد، نستخدم اقتراحات المشفر (encoder proposals) لربط الاستفسارات من كل مستوى بطريقة واحد مقابل واحد. ثم يتم تهيئة الاستفسارات المطابقة باستخدام معلومات الموضع والمحتوى المستمدة من الاقتراح المطابق للفعل. وتُسهم الاستفسارات المُحاذاة على المستويين في تحسين الاقتراحات المطابقة باستخدام معلومات مكملة أثناء عمليات التفكيك اللاحقة. وقد تم تقييم DualDETR على ثلاث معايير صعبة متعددة التصنيفات لـ TAD. وأظهرت النتائج التجريبية تفوق DualDETR على الطرق الرائدة الحالية، حيث حقق تحسنًا ملحوظًا في مقياس det-mAP، ونتائج مبهرة في مقياس seg-mAP.

ديوول ديتيرز للكشف متعدد التسميات عن الأفعال الزمنية | أحدث الأوراق البحثية | HyperAI