HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer يلتقي المُتَّبِع: استغلال السياق الزمني للتعقب البصري المتماسك

Ning Wang Wengang Zhou Jie Wang Houqaing Li

الملخص

في تتبع الكائنات في الفيديو، توجد سياقات زمنية غنية بين الإطارات المتتالية، والتي تم تجاهلها إلى حد كبير في المُتتبعات الحالية. في هذا العمل، نقوم بربط الإطارات الفيديو الفردية واستكشاف السياقات الزمنية بينها من خلال بنية تحويلية (transformer) لتحقيق تتبع كائنات قوي. على عكس الاستخدام التقليدي للتحويلية في مهام معالجة اللغة الطبيعية، نفصل ما بين مشغل التحويلية (encoder) وموّصلها (decoder) إلى فرعين متوازيين، ونقوم بتصميمهما بعناية ضمن أنماط تتبع تشبه نموذج ساياميز (Siamese). يعزز مشغل التحويلية (encoder) نماذج الكائن المستهدَف من خلال تعزيز الميزات القائمة على الانتباه، مما يسهم في إنتاج نموذج تتبع عالي الجودة. أما مُوصل التحويلية (decoder)، فينقل إشارات التتبع من النماذج السابقة إلى الإطار الحالي، ما يُسهّل عملية البحث عن الكائن. يتميز إطار عملنا المدعوم بالتحويلية ببساطته، ويُدرّس بطريقة نهائية (end-to-end). وباستخدام التحويلية المقترحة، يمكن لطريقة مطابقة ساياميز بسيطة أن تتفوّق على أحدث المُتتبعات الأفضل أداءً. وبدمج التحويلية المُقترحة مع نموذج تتبع تمييزي حديث، يُحقّق هذا الأسلوب سجلاً جديداً من السجلات القياسية على معايير تتبع شائعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp