الشبكات السامية الأعمق والأوسع لتعقب الصور البصري في الوقت الحقيقي

لقد لاقت شبكات التوأمة (Siamese networks) اهتمامًا كبيرًا في مجال تتبع الصور بسبب توازنها بين الدقة والسرعة. ومع ذلك، فإن الشبكات الأساسية المستخدمة في متعقبات التوأمة نسبيًا ضحلة، مثل AlexNet [18]، والتي لا تستفيد بشكل كامل من إمكانيات الشبكات العصبية العميقة الحديثة. في هذا البحث، ندرس كيفية الاستفادة من الشبكات العصبية التلافيفية الأعمق والأعرض لتحسين متانة التتبع ودقته. لقد لاحظنا أن استبدال الشبكات الأساسية بمعماريات قوية موجودة، مثل ResNet [14] و Inception [33]، لا يجلب تحسينات. الأسباب الرئيسية لذلك هي: 1) الزيادات الكبيرة في حقل الاستقبال للعصبونات تؤدي إلى تقليل قدرة الميزات على التمييز ودقة تحديد الموقع؛ 2) الوسادة (padding) المستخدمة في الشبكة للتلافيف تسبب انحيازًا مكانيًا في التعلم. لحل هذه المشكلات، نقترح وحدات باقية جديدة (residual modules) لإزالة الآثار السلبية للوسادة (padding)، ونقوم أيضًا بتصميم معماريات جديدة باستخدام هذه الوحدات مع حجم حقل استقبال محكم ومدى شبكة متحكم فيه. تعتبر المعماريات المصممة خفيفة الوزن وتضمن سرعة تتبع في الوقت الحقيقي عند تطبيقها على SiamFC [2] و SiamRPN [20]. أظهرت التجارب أن سبب التحسين النسبي الذي يصل إلى 9.8٪/5.7٪ (AUC)، 23.3٪/8.8٪ (EAO) و 24.4٪/25.0٪ (EAO) بالنسبة لـ SiamFC+ و SiamRPN+ على مجموعات البيانات OTB-15، VOT-16 و VOT-17 هو فقط بسبب المعماريات الشبكية المقترحة.ملاحظة: - AUC: منطقة تحت المنحنى (Area Under the Curve)- EAO: متوسط الدقة المتراكمة عبر الزمن (Expected Average Overlap)- OTB: مجموعة بيانات تتبع الكائنات (Object Tracking Benchmark)- VOT: تحدي تتبع الفيديو البصري (Visual Object Tracking challenge)