Command Palette
Search for a command to run...
TransCenter: نماذج تحويلية ذات تمثيلات كثيفة لتتبع كائنات متعددة
TransCenter: نماذج تحويلية ذات تمثيلات كثيفة لتتبع كائنات متعددة
Yihong Xu Yutong Ban Guillaume Delorme Chuang Gan Daniela Rus Xavier Alameda-Pineda
الملخص
أثبتت نماذج الترانسفورمر أداءً متفوقًا في مجموعة واسعة من المهام منذ إدخالها. في السنوات الأخيرة، لاقت اهتمامًا متزايدًا من مجتمع الرؤية الحاسوبية في مهام مثل تصنيف الصور وتحديد الكائنات. وعلى الرغم من هذا التوجه، لم يتم حتى الآن تصميم طريقة دقيقة وفعالة لتعقب الكائنات المتعددة (MOT) تعتمد على الترانسفورمر. نحن نجادل بأن تطبيق بنية الترانسفورمر مباشرةً، مع تعقيد تربيعي وطلبات نادرة غير كافية مُعدّة مسبقًا بضوضاء، ليس هو الحل الأمثل لمشكلة تعقب الكائنات المتعددة. نقترح "ترانسسينتر" (TransCenter)، وهي بنية تعتمد على الترانسفورمر لتعقب الكائنات المتعددة، تتميز بتمثيلات كثيفة تتيح تتبع جميع الكائنات بدقة مع الحفاظ على زمن تشغيل معقول. من الناحية المنهجية، نقترح استخدام طلبات كشف كثيفة مرتبطة بالصورة، وطلبات تتبع نادرة فعالة يتم إنتاجها بواسطة شبكات تعلم الطلبات (QLN) المصممة بعناية. من جهة، تسمح طلبات الكشف الكثيفة المرتبطة بالصورة لنا باستنتاج مواقع الأهداف بشكل شامل وثابت من خلال مخرجات خريطة الحرارة الكثيفة. ومن جهة أخرى، تتفاعل مجموعة الطلبات النادرة بشكل فعّال مع ميزات الصورة في مُفكّك ترانسسينتر (TransCenter Decoder) لربط مواقع الكائنات عبر الزمن. نتيجة لذلك، تُظهر ترانسسينتر تحسينات أداء ملحوظة، وتتفوّق بشكل كبير على أحدث الطرق المُتّقدمة في معياري تعقب الكائنات القياسيين (مع إعدادات تتبع عامة/خاصة). كما أثبتت ترانسسينتر كفاءة ودقة عالية من خلال دراسة تحليلية شاملة، ومقارنات مع بدائل بسيطة وأعمال متزامنة. وبهدف مصلحة علمية، تم إتاحة الكود مفتوح المصدر على الرابط التالي: https://github.com/yihongxu/transcenter.