FFAVOD: معمارية دمج الميزات للكشف عن الكائنات في الفيديو

توجد كمية كبيرة من التكرار بين الإطارات المتتالية في الفيديو. وعادةً ما تُنتج كاشفات الكائنات كشفًا لكل صورة على حدة، دون إمكانية الاستفادة من هذا التكرار. وفي الوقت نفسه، تتعامل العديد من تطبيقات كشف الكائنات مع الفيديو، بما في ذلك أنظمة النقل الذكية وأنظمة المساعدة المتقدمة للسائقين وأنظمة المراقبة بالفيديو. يهدف عملنا إلى الاستفادة من التشابه بين إطارات الفيديو لتحقيق كشف أفضل. نحن نقترح FFAVOD، وهي اختصار لـ "معمارية دمج الميزات للكشف عن الكائنات في الفيديو". أولاً، نُقدّم معمارية جديدة للكشف عن الكائنات في الفيديو تتيح للشبكة مشاركة خرائط الميزات بين الإطارات القريبة. ثانيًا، نقترح وحدة دمج ميزات تتعلم دمج خرائط الميزات لتعزيزها. ونُظهر أن استخدام المعمارية المقترحة ووحدة الدمج يمكن أن يُحسّن أداء ثلاثة كاشفات أساسية للكائنات على بُنيتين للكشف عن الكائنات تحتويان على تسلسلات لمستخدمي الطرق المتحركين. علاوةً على ذلك، لزيادة الأداء بشكل أكبر، نقترح تحسينًا لوحدة الانتباه SpotNet. وباستخدام معماريّتنا مع كاشف SpotNet المُحسّن، نحقق أفضل أداء مُتاح حاليًا على معيار UA-DETRAC العام، وكذلك على مجموعة بيانات UAVDT. يمكن الوصول إلى الشيفرة من خلال الرابط: https://github.com/hu64/FFAVOD.