مُحَوِّل الفيديو النادر مع الذاكرة المُوجَّهة بالانتباه للكشف عن الكائنات في الفيديو
كشف الكائنات في الفيديو، المعروف بـ "كشف الكائنات في الفيديو" (VOD)، يُعد تحديًا كبيرًا نظرًا لتغير مظهر الكائنات مع مرور الزمن، مما قد يؤدي إلى أخطاء في الكشف. ركّزت الأبحاث الحديثة على دمج السمات من الإطارات المجاورة لتعويض التدهور في مظهر الإطار الواحد. علاوةً على ذلك، اُقترح استخدام الإطارات البعيدة للتعامل مع التدهور في المظهر عبر عدة إطارات. وبما أن موقع الكائن قد يتغير بشكل كبير في الإطار البعيد، فإن هذه الطرق تستخدم فقط سمات من مناطق احتمالية الكائن، والتي لا تعتمد على موقعها. ومع ذلك، تعتمد هذه الأساليب على أداء الكشف في مناطق احتمالية الكائن، ولا تكون عملية فعالة في حالات التدهور الشديد في المظهر. في هذا البحث، نُحسّن السمات عن طريق العنصر (element-wise) قبل عملية كشف مناطق احتمالية الكائن، ونُقدّم نموذج "مُحول الفيديو النادر بذاكرة موجهة بالانتباه" (VSTAM). علاوةً على ذلك، نُقترح دمج السمات عن طريق العنصر بشكل نادر لتقليل وقت المعالجة وتكاليف الذاكرة. كما نُقدّم استراتيجية لتحديث الذاكرة الخارجية تعتمد على استغلال عملية الدمج، لحفظ المعلومات طويلة الأمد بشكل فعّال. حققت طريقة عملنا مكاسب في الدقة بلغت 8.3% و11.1% مقارنةً بالأساس (baseline) على مجموعتي بيانات ImageNet VID وUA-DETRAC. وتُظهر طريقة العمل أداءً متفوّقًا مقارنةً بأفضل النتائج الحالية على مجموعات بيانات VOD الشائعة الاستخدام.