HyperAIHyperAI

Command Palette

Search for a command to run...

توحيد التتبع البصري والتحريك البصري-اللغوي من خلال التعلم التبايني

Yinchao Ma Yuyang Tang Wenfei Yang Tianzhu Zhang Jinpeng Zhang Mengxue Kang

الملخص

تهدف التتبعات ذات الكائن الواحد إلى تحديد موقع الكائن المستهدف في تسلسل فيديو وفقًا للحالة المحددة بواسطة مراجع متعددة الأشكال، بما في ذلك المستطيل المحيط الابتدائي (BBOX)، أو اللغة الطبيعية (NL)، أو كليهما معًا (NL+BBOX). نظرًا للفراغ الموجود بين الأنواع المختلفة من المراجع، تم تصميم معظم المُتتبعات الحالية لمعالجة نوع واحد أو جزء من هذه الإعدادات، مع تخصص مفرط في نوع محدد من المراجع. على النقيض من ذلك، نقدّم متتبعًا موحدًا يُدعى UVLTrack، والذي يمكنه معالجة جميع إعدادات المراجع الثلاثة (BBOX، NL، NL+BBOX) باستخدام نفس المعلمات. يتميز UVLTrack بعدة مزايا. أولاً، قمنا بتصميم مستخرج ميزة موحد الأشكال لتعلم ميزات مرئية ولغوية مشتركة، واقترحنا خسارة تقابلية متعددة الأشكال لتوحيد ميزات البصرية واللغوية في فضاء معنوي موحد. ثانيًا، تم اقتراح رأس مربع متكيف مع الأشكال، والذي يستغل بشكل كامل مرجع الهدف لاستخراج ميزات سياقية متغيرة باستمرار من سياق الفيديو بشكل ديناميكي، وتمييز الهدف بطريقة تقابلية، مما يضمن أداءً قويًا في مختلف إعدادات المراجع. أظهرت النتائج التجريبية الواسعة أن UVLTrack يحقق أداءً واعدًا على سبعة مجموعات بيانات لتتبع البصر، وثلاث مجموعات بيانات لتتبع البصر واللغة، وثلاث مجموعات بيانات لتثبيت البصر. سيتم فتح الشفرة النموذجية والنموذج على الرابط التالي: https://github.com/OpenSpaceAI/UVLTrack.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp