PTSEFormer: تحويلة متقدمة مُحسّنة زمنيًا ومكانية تُوجّه نحو الكشف عن الكائنات في الفيديو

في السنوات الأخيرة، شهدت تطبيقات الإطارات السياقية تطورًا ملحوظًا لتعزيز أداء الكشف عن الكائنات في تطبيقات الكشف عن الكائنات في الفيديو. تُطبّق الطرق الحالية عادةً تجميعًا للسمات دفعة واحدة لتعزيزها، لكن هذه الطرق غالبًا ما تعاني من نقص في المعلومات المكانية المستمدة من الإطارات المجاورة، وتتعرض لمشكلة تجميع غير كافٍ للسمات. ولحل هذه المشكلات، نتبع نهجًا تدريجيًا لدمج كل من المعلومات الزمنية والمعلومات المكانية بهدف تحسين متكامل. تُدخل المعلومات الزمنية من خلال نموذج تجميع السمات الزمنية (TFAM)، وذلك من خلال تطبيق آلية الانتباه بين الإطارات السياقية والإطار المستهدف (أي الإطار الذي يتم كشفه). وفي الوقت نفسه، نستخدم نموذج الوعي بالانتقال المكاني (STAM) لنقل معلومات انتقال المواقع بين كل إطار سياقي والإطار المستهدف. مبنيًا على كاشف مبني على نموذج الترانسفورمر (DETR)، يلتزم نموذجنا PTSEFormer بنمط عمل منتهي إلى منتهى (end-to-end) لتجنب العمليات ما بعد المعالجة الثقيلة، مع تحقيق دقة تصل إلى 88.1% في مؤشر mAP على مجموعة بيانات ImageNet VID. يمكن الوصول إلى الكود عبر الرابط: https://github.com/Hon-Wong/PTSEFormer.