النموذج الفردي والنمط متعدد الوسائط لتتبع الأشياء في الفيديو

في مجال تتبع الأشياء في الفيديو، ظهرت الوسائط المساعدة مثل العمق والحرارة أو بيانات الحدث كموارد قيمة لتعزيز متابعي RGB. في الممارسة العملية، تتعلم معظم المتابعين الحاليين للـ RGB مجموعة واحدة من المعلمات لاستخدامها عبر قواعد البيانات والتطبيقات. ومع ذلك، فإن تحقيق توحيد نموذج مشابه لتتبع متعدد الوسائط يواجه العديد من التحديات. تنبع هذه التحديات من التنوع الداخلي للمدخلات - كل منها له تمثيل خاص بالوسيلة، وندرة قواعد البيانات متعددة الوسائط، وعدم وجود جميع الوسائط في جميع الأوقات. في هذا العمل، نقدم Un-Track، وهو متابع موحد يستخدم مجموعة واحدة من المعلمات لأي وسيلة. لمعالجة أي وسيلة، يتعلم أسلوبنا الفضاء الكامن المشترك من خلال تقنيات التحليل إلى عوامل ذات رتبة منخفضة وإعادة البناء. وأكثر أهمية من ذلك، نستخدم فقط أزواج RGB-X لتعلم الفضاء الكامن المشترك. يربط هذا التمثيل المشترك الفريد جميع الوسائط معًا بسلاسة، مما يمكن من تحقيق توحيد فعال واستيعاب أي وسيلة مفقودة، وكل ذلك ضمن هندسة قائمة على المتحولات (transformer). حقق Un-Track زيادة مطلقة بمقدار +8.1 في درجة F على مجموعة بيانات DepthTrack، بإضافة +2.14 (أعلى من 21.50) جيجافلوب (+6.6 مليون [أعلى من 93 مليون] معلمة) فقط من خلال استراتيجية تحفيز بسيطة وكفؤة. أظهرت المقارنات الشاملة على خمسة قواعد بيانات مرجعية مختلفة بالوسائط أن Un-Track يتفوق على كلاً من أفضل المتابعين الموحدة والمتابعين الخاصة بكل وسيلة، مما يؤكد فعاليتنا وعمليتنا. الرمز المصدر متاح بشكل عام على https://github.com/Zongwei97/UnTrack.