HyperAIHyperAI

Command Palette

Search for a command to run...

النموذج الفردي والنمط متعدد الوسائط لتتبع الأشياء في الفيديو

Zongwei Wu Jilai Zheng Xiangxuan Ren Florin-Alexandru Vasluianu Chao Ma* Danda Pani Paudel Luc Van Gool Radu Timofte

الملخص

في مجال تتبع الأشياء في الفيديو، ظهرت الوسائط المساعدة مثل العمق والحرارة أو بيانات الحدث كموارد قيمة لتعزيز متابعي RGB. في الممارسة العملية، تتعلم معظم المتابعين الحاليين للـ RGB مجموعة واحدة من المعلمات لاستخدامها عبر قواعد البيانات والتطبيقات. ومع ذلك، فإن تحقيق توحيد نموذج مشابه لتتبع متعدد الوسائط يواجه العديد من التحديات. تنبع هذه التحديات من التنوع الداخلي للمدخلات - كل منها له تمثيل خاص بالوسيلة، وندرة قواعد البيانات متعددة الوسائط، وعدم وجود جميع الوسائط في جميع الأوقات. في هذا العمل، نقدم Un-Track، وهو متابع موحد يستخدم مجموعة واحدة من المعلمات لأي وسيلة. لمعالجة أي وسيلة، يتعلم أسلوبنا الفضاء الكامن المشترك من خلال تقنيات التحليل إلى عوامل ذات رتبة منخفضة وإعادة البناء. وأكثر أهمية من ذلك، نستخدم فقط أزواج RGB-X لتعلم الفضاء الكامن المشترك. يربط هذا التمثيل المشترك الفريد جميع الوسائط معًا بسلاسة، مما يمكن من تحقيق توحيد فعال واستيعاب أي وسيلة مفقودة، وكل ذلك ضمن هندسة قائمة على المتحولات (transformer). حقق Un-Track زيادة مطلقة بمقدار +8.1 في درجة F على مجموعة بيانات DepthTrack، بإضافة +2.14 (أعلى من 21.50) جيجافلوب (+6.6 مليون [أعلى من 93 مليون] معلمة) فقط من خلال استراتيجية تحفيز بسيطة وكفؤة. أظهرت المقارنات الشاملة على خمسة قواعد بيانات مرجعية مختلفة بالوسائط أن Un-Track يتفوق على كلاً من أفضل المتابعين الموحدة والمتابعين الخاصة بكل وسيلة، مما يؤكد فعاليتنا وعمليتنا. الرمز المصدر متاح بشكل عام على https://github.com/Zongwei97/UnTrack.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
النموذج الفردي والنمط متعدد الوسائط لتتبع الأشياء في الفيديو | مستندات | HyperAI