شبكات سيامية بالكامل للتقنيات التوافقيّة لتتبع الأشياء

مشكلة تتبع الأجسام العشوائية تم التعامل معها تقليديًا من خلال تعلم نموذج لشكل الجسم بشكل حصري عبر الإنترنت، باستخدام بيانات الفيديو نفسها كبيانات تدريب وحيدة. على الرغم من نجاح هذه الطرق، فإن نهجها المقتصر على الإنترنت يحد بشكل جوهري من غنى النموذج الذي يمكنهم تعلمه. مؤخرًا، تم القيام بعدة محاولات للاستفادة من قوة التعبير للشبكات العصبية التلافيفية العميقة. ومع ذلك، عندما يكون الجسم المراد تتبعه غير معروف مسبقًا، يتعين تنفيذ الانحدار التدرجي العشوائي عبر الإنترنت لتكييف أوزان الشبكة، مما يؤثر بشدة على سرعة النظام. في هذا البحث، نزوّد خوارزمية تتبع أساسية بشبكة سيامية (Siamese) تلافيفية بالكامل تم تدريبها بأسلوب نهاية إلى نهاية على مجموعة بيانات ILSVRC15 للكشف عن الأجسام في الفيديو. يتتبع نظامنا الإطارات بمعدلات تتجاوز الزمن الحقيقي، ورغم بساطته الشديدة، فإنه يحقق أداءً رائدًا في عدة مقاييس.