تعلم الانتباه: شبكة سيميزية انتباهية متبقية لأداء عالي في التتبع البصري المباشر

أظهر التدريب الخارجي للتتبع الكائنات مؤخرًا إمكانات كبيرة في تحقيق التوازن بين دقة التتبع وسرعته. ومع ذلك، لا يزال من الصعب تكييف نموذج تم تدريبه مسبقًا خارجيًا مع كائن مُتتبع بشكل مباشر. تقدم هذه الدراسة شبكة سيماسيان ذات انتباه تكاملي (RASNet) لأداء عالي في تتبع الكائنات. يعيد نموذج RASNet إعادة صياغة مرشح الترابط داخل إطار عمل سيماسيان للتتبع، ويدمج أنواعًا مختلفة من آليات الانتباه لتمكين النموذج من التكيّف دون تحديثه مباشرةً أثناء التشغيل. وبشكل خاص، وباستغلال الانتباه العام المُدرّب مسبقًا، والانتباه المتبقي المُعدّل حسب الكائن، والانتباه المُفضّل للقنوات في السمات، يتمكّن RASNet من تقليل مشكلة التكيف الزائد (over-fitting) في تدريب الشبكات العميقة، ويعزز من قدرته التمييزية والقدرة على التكيّف بفضل فصل عملية تعلم التمثيل عن عملية تعلم المميّز. ويتم تدريب البنية العميقة المقترحة من الطرفين إلى الطرف الآخر (end-to-end)، وتستفيد بالكامل من المعلومات المكانية الزمنية الغنية لتحقيق تتبع بصري قوي. أظهرت النتائج التجريبية على معياريّين حديثين، وهما OTB-2015 وVOT2017، أن مُتتبع RASNet يحقق دقة تتبع من الدرجة الأولى، مع تشغيل بسرعة تزيد عن 80 إطارًا في الثانية.