الإدراك التكيفي للتتبع البصري الموحد متعدد الوسائط للأجسام

في الآونة الأخيرة، يُولِّي العديد من مُتَّبِعِي الوسائط المتعددة اهتمامًا كبيرًا بالصورة الملونة (RGB) كوسيلة مهيمنة، ويُعامل الوسائط الأخرى كوسائط مساعدة، مع إجراء تعديل دقيق منفصل لمهام الوسائط المتعددة المختلفة. هذه التوازن غير المتوازن في الاعتماد على الوسائط يُحد من قدرة الطرق على الاستفادة الديناميكية من المعلومات التكميلية المتوفرة في كل وسيلة في السياقات المعقدة، مما يجعل من الصعب الاستفادة الكاملة من المزايا التي تقدمها الوسائط المتعددة. نتيجة لذلك، يُعاني النموذج المُوحَّد للبارامترات غالبًا من الأداء الضعيف في مهام تتبع الوسائط المتعددة المختلفة. لمعالجة هذه المشكلة، نُقدِّم APTrack، وهو مُتَّبِع مُوحَّد جديد مُصمَّم لتمييز الوسائط المتعددة بشكل متكيف. على عكس الطرق السابقة، يستكشف APTrack تمثيلًا موحَّدًا من خلال استراتيجية تمثيل متساوية. تتيح هذه الاستراتيجية للنموذج التكيُّف الديناميكي مع مختلف الوسائط والمهام دون الحاجة إلى تعديل دقيق إضافي بين المهام المختلفة. علاوةً على ذلك، يُدمج في مُتَّبِعنا وحدة تفاعل وسائط متكيفة (AMI) تُسهم في ربط التفاعلات بين الوسائط بشكل فعّال من خلال إنشاء رموز قابلة للتعلم. أظهرت التجارب التي أُجريت على خمسة مجموعات بيانات متعددة الوسائط متنوعة (RGBT234، LasHeR، VisEvent، DepthTrack، وVOT-RGBD2022) أن APTrack لا يتجاوز المُتَّبِعين المُوحَّدين ذوي الأداء الرائد في الحدود الحالية في مجال التتبع متعدد الوسائط، بل يتفوّق أيضًا على المُتَّبِعين المصممين خصيصًا لمهام تتبع معينة متعددة الوسائط.