HyperAIHyperAI
منذ 2 أشهر

مُتَحَكِّم مُزدَوِج الاتِّجاه لتعقُّب الوسائط المتعدِّدة

Bing Cao; Junliang Guo; Pengfei Zhu; Qinghua Hu
مُتَحَكِّم مُزدَوِج الاتِّجاه لتعقُّب الوسائط المتعدِّدة
الملخص

بفضل التطور السريع لرؤية الحاسوب، حققت تقنية تتبع الأشياء أحادية النمط (RGB) تقدماً كبيراً في السنوات الأخيرة. ومع ذلك، نظراً لقيود جهاز الاستشعار الفوتوغرافي أحادي النمط، تم تقديم الصور متعددة النماذج (RGB، تحت الحمراء، إلخ) لتعويض هذه العيوب وتتبع الأشياء في جميع الظروف وفي بيئات معقدة. ومع ذلك، فإن الحصول على بيانات تتبع كافية متعددة النماذج أمر صعب، بينما يتغير النموذج المهيمن مع البيئة المفتوحة. لذلك، تفشل معظم التقنيات الموجودة في استخراج المعلومات المكملة متعددة النماذج بشكل ديناميكي، مما يؤدي إلى أداء غير مرضٍ في التتبع. لمعالجة هذه المشكلة، نقترح نموذجاً جديداً لتتبع الدفع البصري متعدد النماذج يعتمد على محول ثنائي الاتجاه شائع يقوم بالدفع المتبادل بين عدة نماذج. يتكون نموذجنا من محول ثنائي الاتجاه شائع وفروع متعددة من مُشفرات التحويل الخاصة بالنماذج مع مشاركة المعلمات. يستخدم المشفرات استخراج خصائص كل نموذج بشكل منفصل باستخدام نموذج أساسي مُدرب مسبقاً ومجمد. قمنا بتطوير محول خصائص بسيط ولكنه فعال ينقل المعلومات الخاصة بالنموذج من نموذج إلى آخر، ويقوم بدمج الدفع البصري للخصائص بطريقة مرنة. وبإضافة عدد أقل بكثير (0.32 مليون) من المعلمات القابلة للتدريب، يحقق نموذجنا أداءً تتبعياً أفضل مقارنة بالطرق التي تعتمد على التحسين الكامل والتعلم القائم على الدفع. رمز البرمجيات الخاص بنا متاح على الرابط التالي: https://github.com/SparkTempest/BAT.

مُتَحَكِّم مُزدَوِج الاتِّجاه لتعقُّب الوسائط المتعدِّدة | أحدث الأوراق البحثية | HyperAI