HyperAIHyperAI
منذ 2 أشهر

استكشاف المعلومات السياقية المحسنة لمتابعة الأشياء على مستوى الفيديو

Ben Kang; Xin Chen; Simiao Lai; Yang Liu; Yi Liu; Dong Wang
استكشاف المعلومات السياقية المحسنة لمتابعة الأشياء على مستوى الفيديو
الملخص

informatie السياقية على مستوى الفيديو أصبحت ذات أهمية متزايدة في تتبع الأشياء البصرية. ومع ذلك، فإن الطرق الحالية تستخدم عادةً عددًا قليلًا من الرموز لنقل هذه المعلومات، مما قد يؤدي إلى فقدان المعلومات ويشكل قيودًا على قدرتها على التقاط السياق بشكل كامل. لحل هذه المشكلة، نقترح إطارًا جديدًا لتتبع الأشياء البصرية على مستوى الفيديو يُسمى MCITrack. يستفيد هذا الإطار من الحالة الخفية لمامبا (Mamba) لتسجيل ونقل معلومات سياقية شاملة بشكل مستمر عبر تيار الفيديو، مما يؤدي إلى تتبع أقوى للأجسام. المكون الأساسي لـ MCITrack هو وحدة دمج المعلومات السياقية، والتي تتكون من طبقة مامبا (mamba) وطبقة الانتباه المتقاطع (cross-attention). تقوم طبقة مامبا بتخزين المعلومات السياقية التاريخية، بينما تقوم طبقة الانتباه المتقاطع بدمج هذه المعلومات في الخصائص البصرية الحالية لكل كتلة أساسية. يعزز هذا الوحدة قدرة النموذج على التقاط واستخدام المعلومات السياقية على مستويات متعددة من خلال التكامل العميق مع الأساس. تظهر التجارب أن MCITrack يحقق أداءً تنافسيًا في العديد من المقاييس. على سبيل المثال، حصل على نسبة 76.6% من مؤشر AUC في LaSOT ونسبة 80.0% من مؤشر AO في GOT-10k، مما يحدد مستوى جديدًا للتقنية الحديثة (state-of-the-art). يمكن الحصول على الكود والنموذج من الرابط: https://github.com/kangben258/MCITrack.

استكشاف المعلومات السياقية المحسنة لمتابعة الأشياء على مستوى الفيديو | أحدث الأوراق البحثية | HyperAI